2016-12-11 16 views
0

Я использую набор данных, чтобы сделать 2 кластера с использованием EM, а затем K-средствами. Я уже реализовал K-средства и EM-алгоритм отдельно. Теперь я пытаюсь извлечь k-средства из моей реализации EM-алгоритма для кластеризации. У меня есть 2 вопроса.K-означает как специализированный случай обобщенного алгоритма EM

  1. K-средство рассматривается как частный случай обобщенного алгоритма ЭМ. Но какие предположения нам нужно сделать для получения k-средств из ЭМ-алгоритма?

  2. Также, с точки зрения кодирования, какие изменения необходимо внести в реализацию алгоритма ЭМ, чтобы он начал вести себя точно так же, как алгоритм k-средних? Я предполагаю, что нам нужно разделить одну и ту же матрицу совпадений между обеими кластерами. Это право предположить?

Некоторое понимание будет оценено по достоинству.

Редактировать: Это то, что я получаю с помощью k-средств. Clustering K-means

Это кластер с использованием EM. Clustering EM

ответ

0

Это слишком длинный комментарий.

K-средства и кластеры EM очень связаны, но не совсем то же самое. Два изменения в EM сделают его очень похожим на K-средние:

  1. EM использует многомерные распределения. Ограничьте стандартные отклонения распределений во всех измерениях одинаковыми.
  2. Измените выход EM для создания только наиболее вероятного кластера. EM производит мягкие кластеры (отдельная вероятность того, что точка находится в каждом кластере), тогда как K-средство создает жесткие кластеры (выбор одного кластера).

Я не знаю, как эти «исправления» переводятся в ваш конкретный код.

Я не уверен на 100%, что при любых обстоятельствах такой подход ЭМ сходится к точно таким же кластерам, что и К-средство. Я уверен, что эти два метода приведут к очень сопоставимым результатам в большинстве случаев.

+0

Благодарим за отзыв. Понял. Если мы используем те же стандартные отклонения (или ковариантность) во всех измерениях, они дают результаты, аналогичные k-значению. –

+0

@SalA. , , , Да. Это, случается, тема, которую я обсуждаю в главе кластеризации третьего издания «Методы интеллектуального анализа данных». «Сечение» кластеров для ЭМ - эллипсы, а для К-сред - круги. Таким образом, соблюдение равенства дисперсий ограничивает эллипсы кругами. –

 Смежные вопросы

  • Нет связанных вопросов^_^