2016-09-11 10 views
-2

У меня есть документ с, скажем, 15 твитами. Учитывая запрос, как мы можем оценивать твиты от наиболее релевантных запросу к наименее релевантным?Оценка твитов от наиболее релевантных к наименее актуальным в документе с использованием Python

То есть, пусть D будет документ, содержащий 15 твитов:

D = ['Tweet 1', 'Tweet 2' ..... 'Tweet 15'] 
Q = "some noun phrase" 

Учитывая Q, какой метод можно использовать для ранжирования твитов из наиболее соответствующих наименее актуальным?

Все твиты похожи и принадлежат к одной теме. Могу я использовать tf-idf (это плохая идея, я думаю), тема моделирования?

+0

Что такое "TFIDF"? [частотно-инверсная частота документа] (https://en.wikipedia.org/wiki/Tf%E2%80%93idf)? Измените свой вопрос, чтобы предоставить эту информацию. –

+0

Отредактировано! Спасибо! – ssokhey

+0

Вопрос в том, действительно, «что важно, а что нет». Как только вы знаете, как это определить, вы можете реализовать алгоритм. И определение, которое полностью зависит от вас. Я бы сказал, это не вопрос питона. – zvone

ответ

0

Это может быть на основе того, сколько слов, содержащихся в твите, содержится в теме твита. Если они находятся на одной и той же теме или главной теме, рейтинг должен быть хорошей идеей.

0

Yoe need nltk (Natural Language Toolkit) libery. Есть встроенная функция, которая считает tf-idf

 Смежные вопросы

  • Нет связанных вопросов^_^