2013-04-30 2 views
2

В настоящее время я изучаю кластеризацию. Я выполняю k-средний кластер из average_duration_of_call абонента, который я храню в своей базе данных. On первый запуск с 3-мя центрами cluster1 (53.33369 сек) -367 абонент, cluster2 (121.67123 сек) -128 абонент, cluster3 (369.09000 сек) -8 абонент.Как найти лучший К-средний кластер из другого центра

Я снова повторно запустить кластеризацию с центром 6 и в центре получен являются cluster1 (904,66670 сек) -1 абонент, cluster2 (27,7 сек) - 108 абонента, cluster3 (151.58) -43 абонента, cluster4 (95 сек) - 135 подписчиков, кластер5 (59,5 сек) - 207 подписчиков, кластер6 (278 сек) -9 подписчиков.

Теперь мой вопрос - это лучший кластер и как найти лучший кластер. Любая помощь из опыта ожидается (я в настоящее время использую R-язык)

ответ

2

Если вы новичок, я рекомендую вам начать кластеризацию на основе плотности, чтобы начальное значение K не требовалось. Сначала вы можете запустить кластер dbscan с помощью epsilon = 10 и minpts = 5, а затем проверить количество сгенерированных кластеров. После этого начните плавное увеличение epsilon (11, 12, ... 15) и уменьшите minpt (4, 3, ..1) и каждый раз проверяйте количество генерируемых кластеров. Тогда среднее значение этих чисел должно отражать среднее число реальных кластеров.

Но если вам нужно применить k-среднюю кластеризацию, то вы можете найти Selection of K in K-means clustering бумага полезная.

1

Ну, k-mean уже вычисляет оценку для вашего, суммы квадратов.

Выберите результат, который достиг лучшего результата.

Однако, когда вы увеличиваете k, естественно, что счет улучшается. Очевидно, что если вы установите k на размер набора данных, это будет 0. Затем вам может понадобиться использовать BIC или коэффициент силуэта (посмотрите его в Википедии).

О, и подумайте о том, чтобы использовать книгу. Это классический вопрос, и он должен быть освещен в любой хорошей книге.

+0

, пожалуйста, укажите любое название справочника для этой проблемы. – Krish

+0

также означает, что BIC означает [байесовский информационный критерий] (http://en.wikipedia.org/wiki/Bayesian_information_criterion) или другой? – Krish

+0

См. «Data Clustering» Ган, Ма, Ву, который является исчерпывающим по различным существующим вариантам. Действительно, многие классические книги, такие как книга Векки, почти не касаются кластеризации. Посмотрите, например, на алгоритм x-mean, он использует BIC I belive. –