2014-11-06 2 views
0

Я выполнил k-медоидный анализ кластеризации с использованием пакета CRAN cluster с R. Данные находятся на data.frame, называемом df4, с обложкой 13111. из 11 двоичных и порядковых значений. После кластеризации я применил результаты кластера к исходному data.frame, указав соответствующий номер кластера для идентификатора пользователя.Совокупные порядковые и двоичные данные в соответствии с кластером в R

Как объединить двоичный и порядковый выбор в соответствии с кластером?

Например, Gender переменная имеет мужчина/женщина значения и диапазоны от Age "18-20", "21-24", "25-34", "35-44", "45-54", " . 55-64" и «65+» Я хочу, чтобы сумма мужских и женских ценностей в кластере для переменной Gender и для категорий в Age

Вот глава моей data.frame с колонкой этикеточной кластера.:

#12 variables because I added the clustering object to the data.frame 
#I only included two variables from the R output 
> str(df4) 
'data.frame': 13111 obs. of 12 variables: 
$ Age     : Factor w/ 7 levels "18-20","21-24",..: 6 6 6 6 7 6 5 7 6 3 ... 
$ Gender   : Factor w/ 2 levels "Female","Male": 1 1 2 2 2 1 2 1 2 2 … 

#I only included three variables from the R output 
> head(df4) 
    Age Gender 
1 55-64 Female   
2 55-64 Female   
3 55-64 Male   
4 55-64 Male   
5  65+ Male   
6 55-64 Female   

Вот воспроизводимый пример похож на мой набор данных:

Желаемый результат вывода (гипотетической):

cluster female male 18-20 21-24 25-34 35-44 45-54 55-64 65+ 
1 1  1  1 1  2  1  0  3  1  0 
2 2  2  1 1  1  0  1  2  0  0 
3 3  0  1 1  1  1  1  0  2  3 

Позвольте мне знать, если я могу предоставить больше информации.

+2

'голова = TRUE, не имеет никакого смысла, и вы есть много «умных кавычек», которые заставят парсер задохнуться. Вы также должны опубликовать то, что считаете «правильным ответом», особенно если это не просто «с (df4, table (пол, кластер)). –

+0

Я удалил умные кавычки и

+0

@BondedDust Я включил гипотетический ответ для агрегации и сделал воспроизводимый пример с кластеризацией. –

ответ

2

Похоже, что вы хотите, чтобы отобразить две таблицы из кластера, по-пола и tabluation кластера по возрасту в одной матрице:

with(smalldf, cbind(table(cluster, gender), table(cluster, age) )) 
#---------------- 
    Female Male 18-20 21-24 25-34 35-44 45-54 55-64 65+ 
1  2 0  1  1  0  0  0  0 0 
2  0 4  0  0  1  1  1  1 0 
3  1 0  0  0  0  0  0  0 1 
+0

Отлично, это работает! –

 Смежные вопросы

  • Нет связанных вопросов^_^