6

Недавно я пришел изучить кластеризацию в области интеллектуального анализа данных, и я изучил последовательную кластеризацию и иерархическую кластеризацию и k-средства.вопросы о методах кластеризации

Я также читал об утверждении, которое отличает k-средство от двух других методов кластеризации, говоря, что k-средство не очень хорошо справляется с номинальными атрибутами, но текст не объясняет эту точку. только различие, которое я вижу, заключается в том, что для K-средних мы будем знать заранее, что нам понадобятся именно кластеры K, пока мы не знаем, сколько кластеров нам нужно для других двух методов кластеризации.

Так может ли кто-нибудь дать мне некоторое представление о том, почему такое утверждение существует, т. Е. K-средство имеет эту проблему при рассмотрении примеров номинальных атрибутов и есть ли способ преодолеть это?

Заранее спасибо.

ответ

5

Алгоритм k-средних вычисляет центроиды кластера, принимая средние значения всех точек в кластере. Если параметр является номинальным, вы не можете принять среднее значение.

Иногда номинальные значения могут быть помещены в своего рода порядок, а затем отображены на реальные значения. Например, дни недели могут отображаться в диапазоне [1.0-7.0], но иногда иногда это невозможно, например, атрибут со значениями [Windows, Linux, OSX].

+0

Обратите внимание, что мы обычно принимаем основное значение дискретной переменной при вычислении центроидов кластера. – Amro