Я хочу ранжировать 100 документов на основе сходства. Например, 10 документов будут аналогичными (A, A ', A' ', A' '', ...), а другой набор из 10 документов может быть аналогичным (B, B ', B' ', B' ' ', ...). Теперь документы должны оцениваться как A, A '', A '' ', ..., B, B', B '' ', ... и так далее.Организация документов на основе сходства с использованием TF-IDF
Показатель сходства основан на использовании слов. После ранжирования используйте случай, чтобы расположить документы для чтения, чтобы аналогичные документы были прочитаны вместе как A, A '', A '' ', ..., B, B', B '' ', ..., Z, Z ', Z' '.
Могу ли я использовать TF-IDF для достижения этого рейтинга? Есть ли библиотека C для этого?
1) Метрика сходства основана на использовании слов. 2) Нет, документ может появляться только один раз. После ранжирования используйте случай, чтобы расположить документы для чтения, чтобы аналогичные документы были прочитаны вместе как A, A '', A '' ', ..., B, B', B '' ', ..., Z, Z ', Z' '. – Hemanthkumar