2016-02-23 12 views
-1

Я хочу ранжировать 100 документов на основе сходства. Например, 10 документов будут аналогичными (A, A ', A' ', A' '', ...), а другой набор из 10 документов может быть аналогичным (B, B ', B' ', B' ' ', ...). Теперь документы должны оцениваться как A, A '', A '' ', ..., B, B', B '' ', ... и так далее.Организация документов на основе сходства с использованием TF-IDF

Показатель сходства основан на использовании слов. После ранжирования используйте случай, чтобы расположить документы для чтения, чтобы аналогичные документы были прочитаны вместе как A, A '', A '' ', ..., B, B', B '' ', ..., Z, Z ', Z' '.

Могу ли я использовать TF-IDF для достижения этого рейтинга? Есть ли библиотека C для этого?

ответ

0

Пара вопросов:

  1. Какой тип сходства метрики вы используете?
  2. Может ли документ отображаться в A и B?

Одним из показателей, который вы можете использовать, являются слова документа. Вы можете рассчитать TF-IDF для каждого документа, а затем запросить документы с ключевыми фразами.

E.g. если вы хотите найти множество документов, которые говорят о программировании вы можете найти все документы с запросом:

programming code coding 

И тогда результирующий набор будет документы, которые подобны по этим ключевым словам. И вы можете иметь одинаковые документы, появляющиеся в каждом запросе.

Я не слишком уверен в библиотеках C, но на python вы можете использовать textblob для простого вычисления tf-idf. Вы могли бы построить это с нуля.

+0

1) Метрика сходства основана на использовании слов. 2) Нет, документ может появляться только один раз. После ранжирования используйте случай, чтобы расположить документы для чтения, чтобы аналогичные документы были прочитаны вместе как A, A '', A '' ', ..., B, B', B '' ', ..., Z, Z ', Z' '. – Hemanthkumar