Оценка твитов от наиболее релевантных к наименее актуальным в документе с использованием Python

-2

У меня есть документ с, скажем, 15 твитами. Учитывая запрос, как мы можем оценивать твиты от наиболее релевантных запросу к наименее релевантным?Оценка твитов от наиболее релевантных к наименее актуальным в документе с использованием Python

То есть, пусть D будет документ, содержащий 15 твитов:

D = ['Tweet 1', 'Tweet 2' ..... 'Tweet 15'] 
Q = "some noun phrase"

Учитывая Q, какой метод можно использовать для ранжирования твитов из наиболее соответствующих наименее актуальным?

Все твиты похожи и принадлежат к одной теме. Могу я использовать tf-idf (это плохая идея, я думаю), тема моделирования?

источник

2016-09-11 ssokhey

Что такое "TFIDF"? [частотно-инверсная частота документа] (https://en.wikipedia.org/wiki/Tf%E2%80%93idf)? Измените свой вопрос, чтобы предоставить эту информацию. –

Отредактировано! Спасибо! – ssokhey

Вопрос в том, действительно, «что важно, а что нет». Как только вы знаете, как это определить, вы можете реализовать алгоритм. И определение, которое полностью зависит от вас. Я бы сказал, это не вопрос питона. – zvone

Это может быть на основе того, сколько слов, содержащихся в твите, содержится в теме твита. Если они находятся на одной и той же теме или главной теме, рейтинг должен быть хорошей идеей.

источник

2016-09-11 10:34:46

Yoe need nltk (Natural Language Toolkit) libery. Есть встроенная функция, которая считает tf-idf

источник

2016-09-11 11:13:20 Attila

Оценка твитов от наиболее релевантных к наименее актуальным в документе с использованием Python

ответ

Смежные вопросы