2017-02-02 11 views
1

В чем разница между ранжированием документов TF-IDF и бинарной независимой моделью ранжирования? Я не могу отличить их.Информационно-поисковая система

Я думаю, что практическая реализация бинарной модели независимости приводит к TF-IDF. Пожалуйста, помогите мне, если я ошибаюсь.

+0

Вы правы ... tf-idf является ad-hoc ... вероятностный анализ устанавливает, почему функция tf-idf должна работать хорошо ... – Debasis

ответ

2

Главное отличие состоит в том, что в двоичной модели независимости нет представления о том, насколько важно слово, и все слова обрабатываются одинаково. Но взвешивающие слова с TF-IDF дадут лучшие оценки словам, которые больше используются в одном документе и имеют меньшую частоту документа.

2

Вы верны. Предположение Binary Independence Model состоит в том, что документы являются двоичными векторами. То есть регистрируется только наличие или отсутствие условий в документах. С другой стороны, согласно Vector Space Model, документы представлены вектором весовых коэффициентов, а TF-IDF - всего лишь один из способов представления весов термина.