Используя biofam набор данных, который поставляется в составе TraMineR
:Как определить последовательности внутри каждого кластера?
library(TraMineR)
data(biofam)
lab <- c("P","L","M","LM","C","LC","LMC","D")
biofam.seq <- seqdef(biofam[,10:25], states=lab)
head(biofam.seq)
Sequence
1167 P-P-P-P-P-P-P-P-P-LM-LMC-LMC-LMC-LMC-LMC-LMC
514 P-L-L-L-L-L-L-L-L-L-L-LM-LMC-LMC-LMC-LMC
1013 P-P-P-P-P-P-P-L-L-L-L-L-LM-LMC-LMC-LMC
275 P-P-P-P-P-L-L-L-L-L-L-L-L-L-L-L
2580 P-P-P-P-P-L-L-L-L-L-L-L-L-LMC-LMC-LMC
773 P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P
Я могу выполнить кластерный анализ:
library(cluster)
couts <- seqsubm(biofam.seq, method = "TRATE")
biofam.om <- seqdist(biofam.seq, method = "OM", indel = 3, sm = couts)
clusterward <- agnes(biofam.om, diss = TRUE, method = "ward")
cluster3 <- cutree(clusterward, k = 3)
cluster3 <- factor(cluster3, labels = c("Type 1", "Type 2", "Type 3"))
Однако в этом процессе, были заменены уникальные идентификаторы из biofam.seq по списку номеров от 1 до N:
head(cluster3, 10)
[1] Type 1 Type 2 Type 2 Type 2 Type 2 Type 3 Type 3 Type 2 Type 1
[10] Type 2
Levels: Type 1 Type 2 Type 3
Теперь, я хочу знать, какие последовательности находятся внутри каждого кластера, чтобы я мог применять другие функции для получения средней длины, энтропии, подпоследовательности, несходства и т. д. в каждом кластере. Что мне нужно сделать, это:
- Карту старых идентификаторов к новым идентификаторам
- Вставьте последовательности в каждом кластере в отдельную последовательность объектах
- Run статистики я хочу на каждом новую последовательность объектов
Как я могу выполнить 2 и 3 в списке выше?
Я хотел бы помочь, но я не могу запустить свой пример: где 'biofam.seq' приходит из? – flodel
Он загружается с помощью 'TraMineR': http://mephisto.unige.ch/traminer/doc/biofam.html, если он не загружается автоматически, вы должны быть в состоянии сделать это, используя' biofam.seq <- seqdef (biofam) 'после запуска' data (biofam) ' – histelheim
Данные' biofam' содержат также ковариаты. В 'seqdef' вам следует указать столбцы, в которых мы находим данные последовательности, т. Е.' Seqdef (biofam [10:25,]) '. Я соответствующим образом отредактировал вопрос. – Gilbert