fpc
пакет имеет функцию, называемую clusterboot
, которая может быть использована для оценки стабильности процедуры кластеризации. Он может быть использован следующим образом:
library(TraMineR)
data(mvad)
##Use some sequence data to illustrate
mvad.alphabet <- c("employment", "FE", "HE", "joblessness", "school", "training")
mvad.labels <- c("employment", "further education", "higher education", "joblessness", "school", "training")
mvad.scodes <- c("EM", "FE", "HE", "JL", "SC", "TR")
mvad.seq <- seqdef(mvad, 17:86, alphabet = mvad.alphabet, states = mvad.scodes, labels = mvad.labels, xtstep = 6)
## Compute Hamming distances
ham <- seqdist(mvad.seq, method="HAM")
library(fpc)
cf2 <- clusterboot(as.dist(ham),clustermethod=disthclustCBI, k=5, cut="number", method="average")
print(cf2)
clusterboot
страница помощи предоставляет следующие рекомендации для интерпретации значений.
Существует некоторое теоретическое обоснование, чтобы рассмотреть значение сходства Jaccard, меньшее или равное 0,5, как указание на «растворенный кластер», см. Hennig (2008). Как правило, действительный, стабильный кластер должен давать среднее значение сходства Jaccard 0,75 или более. Между 0,6 и 0,75 кластеры могут рассматриваться как индикаторы в данных, но точки, которые точно должны принадлежать этим кластерам, весьма сомнительны. Ниже среднего значения Jaccard 0.6, кластерам не следует доверять. «Высокостабильные» кластеры должны давать среднее сходство с Jaccard 0,85 и выше.
Наличие стабильной процедуры кластеризации не означает, что кластеризация хороша. Вы также можете быть заинтересованы в измерении качества кластера. В этом случае вы можете использовать пакет WeightedCluster
, см. Здесь: http://mephisto.unige.ch/weightedcluster/