K-означает как специализированный случай обобщенного алгоритма EM

Я использую набор данных, чтобы сделать 2 кластера с использованием EM, а затем K-средствами. Я уже реализовал K-средства и EM-алгоритм отдельно. Теперь я пытаюсь извлечь k-средства из моей реализации EM-алгоритма для кластеризации. У меня есть 2 вопроса.K-означает как специализированный случай обобщенного алгоритма EM

K-средство рассматривается как частный случай обобщенного алгоритма ЭМ. Но какие предположения нам нужно сделать для получения k-средств из ЭМ-алгоритма?
Также, с точки зрения кодирования, какие изменения необходимо внести в реализацию алгоритма ЭМ, чтобы он начал вести себя точно так же, как алгоритм k-средних? Я предполагаю, что нам нужно разделить одну и ту же матрицу совпадений между обеими кластерами. Это право предположить?

Некоторое понимание будет оценено по достоинству.

Редактировать: Это то, что я получаю с помощью k-средств. Clustering K-means

Это кластер с использованием EM. Clustering EM

источник

2016-12-11 Sal A.

Это слишком длинный комментарий.

K-средства и кластеры EM очень связаны, но не совсем то же самое. Два изменения в EM сделают его очень похожим на K-средние:

EM использует многомерные распределения. Ограничьте стандартные отклонения распределений во всех измерениях одинаковыми.
Измените выход EM для создания только наиболее вероятного кластера. EM производит мягкие кластеры (отдельная вероятность того, что точка находится в каждом кластере), тогда как K-средство создает жесткие кластеры (выбор одного кластера).

Я не знаю, как эти «исправления» переводятся в ваш конкретный код.

Я не уверен на 100%, что при любых обстоятельствах такой подход ЭМ сходится к точно таким же кластерам, что и К-средство. Я уверен, что эти два метода приведут к очень сопоставимым результатам в большинстве случаев.

источник

2016-12-11 13:01:27

Благодарим за отзыв. Понял. Если мы используем те же стандартные отклонения (или ковариантность) во всех измерениях, они дают результаты, аналогичные k-значению. –

@SalA. , , , Да. Это, случается, тема, которую я обсуждаю в главе кластеризации третьего издания «Методы интеллектуального анализа данных». «Сечение» кластеров для ЭМ - эллипсы, а для К-сред - круги. Таким образом, соблюдение равенства дисперсий ограничивает эллипсы кругами. –

K-означает как специализированный случай обобщенного алгоритма EM

ответ

Смежные вопросы