0

Я новичок в области интеллектуального анализа данных и хочу сгруппировать мой набор данных для поиска группы жанров. У меня есть 26 разных жанров для 86 фильмов в моем наборе данных. Я хотел бы использовать кластеризацию для группировки моих фильмов в несколько жанров вместо 26. Так, например, для. после запуска некоторого алгоритма кластеризации я останусь с 4 кластерами или любым небольшим количеством, которое лучше всего подходит для моего набора данных. Я определил свой набор данных следующим образом: M1 {G1, G2, ..... G26} M2 {G1, G2, ..... G26} ГДЕ каждый из жанров G1, ...., G26 может содержать значение 0 или 1, 0 для отсутствия, 1 для присутствия. Теперь мой следующий шаг - запустить кластер k-mean, и я хочу использовать функцию хорошего расстояния, например. Коэффициент корреляции Пирсона.Clustering Жанры фильмов

Я использую MATLAB для своих экспериментов. Я пробовал делать k-средства, используя k = 3,4,5,6 Также я выполнил иерархическую кластеризацию.

Я не уверен, как определить, какие результаты кластеризации лучше. Как это проверить? Поскольку я новичок, я не знаю, как создавать кластеры для двоичных функций в MATLAB. Также у меня нет знаний о том, как использовать коэффициент корреляции Пирсона как метрику расстояния в k-средствах. Пожалуйста помоги.

ответ

0

Оценка является самой сложной задачей в отношении кластеризации.

Если вы знаете, что ищете, вам не нужно будет запускать кластерный анализ.

Таким образом, для кластеризации нет объективной «истины». То, что вы считаете кластером, зависит от ваших личных потребностей, и если вы не закодируете их в пользовательский алгоритм, скорее всего, алгоритм кластеризации вычисляет что-то совершенно другое.

k-означает, например, минимизирует отклонения. Независимо от того, согласуется ли дисперсия с вашей идеей кластера!

Для вашего случая использования наилучшая проверка на работоспособность заключается в том, что каждое из существующих назначений жанров должно быть в основном в пределах одного из кластеров. Если это повсюду, кластеризация не группируется по вашим представлениям о жанрах.

0

Если у вас нет прав на землю, тогда нет конкретного способа оценить, насколько успешной была ваша кластеризация.

Итак, если у вас нет истины, вы можете использовать сходство внутри кластера; это когда вы измеряете сходство узлов внутри каждого кластера. Я бы посмотрел на среднюю кластеризацию сдвига, так как вам не нужно указывать количество кластеров.