Я новичок в области интеллектуального анализа данных и хочу сгруппировать мой набор данных для поиска группы жанров. У меня есть 26 разных жанров для 86 фильмов в моем наборе данных. Я хотел бы использовать кластеризацию для группировки моих фильмов в несколько жанров вместо 26. Так, например, для. после запуска некоторого алгоритма кластеризации я останусь с 4 кластерами или любым небольшим количеством, которое лучше всего подходит для моего набора данных. Я определил свой набор данных следующим образом: M1 {G1, G2, ..... G26} M2 {G1, G2, ..... G26} ГДЕ каждый из жанров G1, ...., G26 может содержать значение 0 или 1, 0 для отсутствия, 1 для присутствия. Теперь мой следующий шаг - запустить кластер k-mean, и я хочу использовать функцию хорошего расстояния, например. Коэффициент корреляции Пирсона.Clustering Жанры фильмов
Я использую MATLAB для своих экспериментов. Я пробовал делать k-средства, используя k = 3,4,5,6 Также я выполнил иерархическую кластеризацию.
Я не уверен, как определить, какие результаты кластеризации лучше. Как это проверить? Поскольку я новичок, я не знаю, как создавать кластеры для двоичных функций в MATLAB. Также у меня нет знаний о том, как использовать коэффициент корреляции Пирсона как метрику расстояния в k-средствах. Пожалуйста помоги.