В настоящее время я изучаю кластеризацию. Я выполняю k-средний кластер из average_duration_of_call абонента, который я храню в своей базе данных. On первый запуск с 3-мя центрами cluster1 (53.33369 сек) -367 абонент, cluster2 (121.67123 сек) -128 абонент, cluster3 (369.09000 сек) -8 абонент.Как найти лучший К-средний кластер из другого центра
Я снова повторно запустить кластеризацию с центром 6 и в центре получен являются cluster1 (904,66670 сек) -1 абонент, cluster2 (27,7 сек) - 108 абонента, cluster3 (151.58) -43 абонента, cluster4 (95 сек) - 135 подписчиков, кластер5 (59,5 сек) - 207 подписчиков, кластер6 (278 сек) -9 подписчиков.
Теперь мой вопрос - это лучший кластер и как найти лучший кластер. Любая помощь из опыта ожидается (я в настоящее время использую R-язык)
, пожалуйста, укажите любое название справочника для этой проблемы. – Krish
также означает, что BIC означает [байесовский информационный критерий] (http://en.wikipedia.org/wiki/Bayesian_information_criterion) или другой? – Krish
См. «Data Clustering» Ган, Ма, Ву, который является исчерпывающим по различным существующим вариантам. Действительно, многие классические книги, такие как книга Векки, почти не касаются кластеризации. Посмотрите, например, на алгоритм x-mean, он использует BIC I belive. –