8

Моделирование темы определяет распределение тем в коллекции документов, которое эффективно идентифицирует кластеры в коллекции. Так правильно ли говорить, что тематическое моделирование - это метод кластеризации документов?Какова связь между тематическим моделированием и кластеризацией документов?

ответ

10

Тема отличается от кластера документов, в конце концов, тема не состоит из документов.

Однако эти два метода действительно связаны между собой. Я считаю, что моделирование темы - это жизнеспособный способ решения вопроса о том, как подобны документы, и, следовательно, жизнеспособный способ кластеризации документов.

При представлении каждого документа в качестве распределения тем (на самом деле вектор) методы моделирования тем уменьшают размерность признаков от количества отдельных слов, появившихся (в корпусе) к числу тем. Сходство между распределением разделов Docs можно рассчитать с использованием косинусных метрик и многих других показателей, которые отражают сходство самих документов с точки зрения тем/тем, которые они охватывают. На основе этой количественной меры сходства многие алгоритмы кластеризации могут применяться для группировки документов.

И в этом смысле я считаю правильным сказать, что тематическое моделирование - это метод кластеризации документов.

1

Связь между кластеризацией и классификацией очень похожа на связь между тематическим моделированием и классификацией с несколькими метками.

В одноклассовой классификации с несколькими классами мы присваиваем только одну метку на каждый документ. И в кластеризации мы помещаем каждый документ только в одну группу. Дело в том, что мы не можем заранее определить кластеры, поскольку мы определяем метки. Если мы проигнорируем этот факт, группировка и маркировка - это, по сути, одно и то же.

Однако в реальном мире проблем с плоской классификацией недостаточно. Часто документы связаны с несколькими категориями/классами. Таким образом, мы используем классификацию с несколькими метками. Теперь мы можем увидеть моделирование темы как неконтролируемую версию классификации с несколькими метками, так как каждый документ можно разместить под несколькими группами/темами. И здесь я игнорирую тот факт, что мы не можем решить, какие темы следует использовать в качестве меток заранее.

 Смежные вопросы

  • Нет связанных вопросов^_^