0

У меня есть набор данных размером> 35K в размере /> 50 размеров. Используется алгоритм BIRCH для кластеризации. Во время тестирования точки данных, с которыми сформирован кластер, не соответствуют друг другу, т. Е. Точка данных ближе к некоторому другому кластеру, чем исходный кластер. Это практически неверно. При анализе найденной проблема связана с объединением двух кластеров (один будет меньше и другой с очень высокими точками данных). Центр результирующего кластера будет смещаться во второй кластер, оставляя точки на краях первого кластера ближе к некоторому другому кластеру.Тестирование кластеров Назначение/сопоставление образцов BIRCH Кластеры

Хотел бы оправдать свое понимание и посмотреть, есть ли какие-либо другие проверенные методы для смягчения этой проблемы.

+0

Мне еще предстоит увидеть полную рабочую реализацию BIRCH ... :-( –

+0

Тогда я думаю, что подходящее время для меня написать общий вариант :-) –

+0

Вы нашли какие-либо детали о том, что делать * после * построение CF-дерева? Кажется, что все застряли ... –

ответ

1

При внедрении BIRCH было бы проще сначала заняться данными, имеющими гораздо меньшие перекрытия, а затем подтвердить, что все в порядке, используя все 4 измерения расстояния с хорошими данными образца. С BIRCH это становится сложным и уродливым, и он становится кошмаром для отладки.

Если вы видите сдвиг, это может быть проблемой в том, как вы используете измерение расстояния внутри кластера. Другое возможное объяснение состоит в том, что в гене CF-генерации есть ошибка. Проверьте с помощью некоторой независимой корректной реализации (например, R или Matlab), чтобы определить, обнаружены ли те точки, которые вызвали слияние, в пределах перекрывающегося подпространства. Затем удалите эти точки данных, вызывающие перекрытие, и повторите попытку в своей реализации. Если ошибка уходит, то это хороший признак того, что у вас есть ошибка в генерации CF (т. Е. Вы раскалываете или объединяетесь, когда вам не следует).