В кластеризации каких эффектов на него оказывают шумные, избыточные и нерелевантные атрибуты? Они в конечном итоге помогают или вредят кластеризации? Я знаю, что он не может обрабатывать шумные данные, но не уверен в двух других.Определение эффектов кластеризации
ответ
Шум
Производительность многих алгоритмов кластеризации как к-средства, разбиение вокруг медианный т.д. деградирует как процент от шума увеличивается. Для примеров в кластеризации k-значений из-за выбросов (данных, которые в значительной степени отличаются от набора данных), кластеризованный центроид изменяется. Алгоритм занимает много времени, чтобы сходиться и не может привести к хорошей кластеризации.
Большинство алгоритмов кластеризации предпочитают удалять шум (выбросы) из набора данных до кластеризации.
Для получения более подробной информации: Effect of noise on the performance of clustering techniques
Избыточные данные (без избыточных атрибутов, но избыточные точки данных)
Это также влияет на кластеризацию в негативном ключе, но зависит от алгоритма кластеризации. Если какой-либо алгоритм принимает во внимание частоту рассматриваемой точки данных (пример означает среднее значение кластеризованных точек, медиана и т. Д.), То означает, что медиана кластера может изменяться.
Обычно вы не хотите группировать данные на основе вероятности появления любой точки данных. Поэтому, если какая-либо точка данных является избыточной, рекомендуется удалить ее перед кластеризацией.
Если вы рассматриваете избыточный attrubute (например, связанный с ним атрибут), он может или не может влиять на кластеризацию. Зависит от домена набора данных.
Ненужные атрибут
Это тоже эффект кластеризации в негативном ключе. Из-за несоответствующего атрибута кластеризация может не сходиться. Фактически иногда несущественные атрибуты рассматриваются как шум. Также с более высокими размерами возникает проклятие размерности. Поэтому часто рекомендуется уменьшить размерность до кластеризации.
Некоторые детали:
Clustering high dimensional data
Effect of irrelevant attribute on fuzzy clustering