В настоящее время я выполняю проект java в NLP/IR и довольно новичок в этом. Проект состоит из коллекции с около 1000 документами, где каждый документ содержит около 100 слов, структурированных как сумка слов с временной частотой. Я хочу найти похожие документы на основе документа (из коллекции).Сравнение документов - сходство документов
Использование TF-IDF, вычисление tf-idf для запроса (данный документ) и любой другой документ в коллекции, а затем сравнение этих значений как вектора с подобием косинуса. Может ли это дать некоторое представление об их сходстве? Или это было бы неразумно из-за большого запроса (документа)? Есть ли какие-либо другие меры сходства, которые могли бы работать лучше?
Спасибо за помощь
Спасибо за ответ! Я понимаю разные «типы» сходства, о которых вы говорили. Если бы я пошел с TF-IDF, подход сходства косинусов. Я бы просто использовал один из документов в качестве запроса для остальной коллекции (кроме той же)? Или это другие способы? – user3930642
Запросы, как правило, короткие, в то время как документы обычно более длинные. При сравнении документов вы, вероятно, захотите сравнить свои векторы TF-IDF друг с другом. Однако, когда вы подаете полный документ в виде запроса в ИК-систему, он может просто рассматривать его как пакет слов (TF = 1, IDF = 1 для всех слов в сумке) - так что вы, вероятно, не должны этого делать , – rec