2014-10-01 6 views
2

Я провел анализ с использованием TraMineR, чтобы измерить сходство между последовательностями пространственного использования (например, Rural (R) vs Urban (U): пример последовательности -> RRRRRUUURRUUU) A требование в моем анализе состоит в том, что состояния сравниваются в один и тот же момент времени, и поэтому я использовал сходство последовательности хамминга. На основе матрицы подобия я создал дендрограмму, дающую расстояния между отдельными последовательностями, помогая идентифицировать «поведенческие сходства» в последовательном пространственном использовании. Теперь я ищу способ расчета надежности или надежности дерева. У кого-то есть идея, как я могу вычислить дерево начальной загрузки (со значениями начальной загрузки, указанными вдоль ветвей)?Измерение надежности дерева/дендрограммы (Traminer)

С наилучшими пожеланиями,

Йоханнес

ответ

2

fpc пакет имеет функцию, называемую clusterboot, которая может быть использована для оценки стабильности процедуры кластеризации. Он может быть использован следующим образом:

library(TraMineR) 
data(mvad) 
##Use some sequence data to illustrate 
mvad.alphabet <- c("employment", "FE", "HE", "joblessness", "school", "training") 
mvad.labels <- c("employment", "further education", "higher education", "joblessness", "school", "training") 
mvad.scodes <- c("EM", "FE", "HE", "JL", "SC", "TR") 
mvad.seq <- seqdef(mvad, 17:86, alphabet = mvad.alphabet, states = mvad.scodes, labels = mvad.labels, xtstep = 6) 
## Compute Hamming distances 
ham <- seqdist(mvad.seq, method="HAM") 
library(fpc) 
cf2 <- clusterboot(as.dist(ham),clustermethod=disthclustCBI, k=5, cut="number", method="average") 
print(cf2) 

clusterboot страница помощи предоставляет следующие рекомендации для интерпретации значений.

Существует некоторое теоретическое обоснование, чтобы рассмотреть значение сходства Jaccard, меньшее или равное 0,5, как указание на «растворенный кластер», см. Hennig (2008). Как правило, действительный, стабильный кластер должен давать среднее значение сходства Jaccard 0,75 или более. Между 0,6 и 0,75 кластеры могут рассматриваться как индикаторы в данных, но точки, которые точно должны принадлежать этим кластерам, весьма сомнительны. Ниже среднего значения Jaccard 0.6, кластерам не следует доверять. «Высокостабильные» кластеры должны давать среднее сходство с Jaccard 0,85 и выше.

Наличие стабильной процедуры кластеризации не означает, что кластеризация хороша. Вы также можете быть заинтересованы в измерении качества кластера. В этом случае вы можете использовать пакет WeightedCluster, см. Здесь: http://mephisto.unige.ch/weightedcluster/