Я выполнил k-медоидный анализ кластеризации с использованием пакета CRAN cluster
с R. Данные находятся на data.frame
, называемом df4, с обложкой 13111. из 11 двоичных и порядковых значений. После кластеризации я применил результаты кластера к исходному data.frame
, указав соответствующий номер кластера для идентификатора пользователя.Совокупные порядковые и двоичные данные в соответствии с кластером в R
Как объединить двоичный и порядковый выбор в соответствии с кластером?
Например, Gender
переменная имеет мужчина/женщина значения и диапазоны от Age
"18-20", "21-24", "25-34", "35-44", "45-54", " . 55-64" и «65+» Я хочу, чтобы сумма мужских и женских ценностей в кластере для переменной Gender
и для категорий в Age
Вот глава моей data.frame с колонкой этикеточной кластера.:
#12 variables because I added the clustering object to the data.frame
#I only included two variables from the R output
> str(df4)
'data.frame': 13111 obs. of 12 variables:
$ Age : Factor w/ 7 levels "18-20","21-24",..: 6 6 6 6 7 6 5 7 6 3 ...
$ Gender : Factor w/ 2 levels "Female","Male": 1 1 2 2 2 1 2 1 2 2 …
#I only included three variables from the R output
> head(df4)
Age Gender
1 55-64 Female
2 55-64 Female
3 55-64 Male
4 55-64 Male
5 65+ Male
6 55-64 Female
Вот воспроизводимый пример похож на мой набор данных:
Желаемый результат вывода (гипотетической):
cluster female male 18-20 21-24 25-34 35-44 45-54 55-64 65+
1 1 1 1 1 2 1 0 3 1 0
2 2 2 1 1 1 0 1 2 0 0
3 3 0 1 1 1 1 1 0 2 3
Позвольте мне знать, если я могу предоставить больше информации.
'голова = TRUE, не имеет никакого смысла, и вы есть много «умных кавычек», которые заставят парсер задохнуться. Вы также должны опубликовать то, что считаете «правильным ответом», особенно если это не просто «с (df4, table (пол, кластер)). –
Я удалил умные кавычки и
@BondedDust Я включил гипотетический ответ для агрегации и сделал воспроизводимый пример с кластеризацией. –