У меня есть набор данных размером> 35K в размере /> 50 размеров. Используется алгоритм BIRCH для кластеризации. Во время тестирования точки данных, с которыми сформирован кластер, не соответствуют друг другу, т. Е. Точка данных ближе к некоторому другому кластеру, чем исходный кластер. Это практически неверно. При анализе найденной проблема связана с объединением двух кластеров (один будет меньше и другой с очень высокими точками данных). Центр результирующего кластера будет смещаться во второй кластер, оставляя точки на краях первого кластера ближе к некоторому другому кластеру.Тестирование кластеров Назначение/сопоставление образцов BIRCH Кластеры
Хотел бы оправдать свое понимание и посмотреть, есть ли какие-либо другие проверенные методы для смягчения этой проблемы.
Мне еще предстоит увидеть полную рабочую реализацию BIRCH ... :-( –
Тогда я думаю, что подходящее время для меня написать общий вариант :-) –
Вы нашли какие-либо детали о том, что делать * после * построение CF-дерева? Кажется, что все застряли ... –