У меня есть документ с, скажем, 15 твитами. Учитывая запрос, как мы можем оценивать твиты от наиболее релевантных запросу к наименее релевантным?Оценка твитов от наиболее релевантных к наименее актуальным в документе с использованием Python
То есть, пусть D будет документ, содержащий 15 твитов:
D = ['Tweet 1', 'Tweet 2' ..... 'Tweet 15']
Q = "some noun phrase"
Учитывая Q, какой метод можно использовать для ранжирования твитов из наиболее соответствующих наименее актуальным?
Все твиты похожи и принадлежат к одной теме. Могу я использовать tf-idf (это плохая идея, я думаю), тема моделирования?
Что такое "TFIDF"? [частотно-инверсная частота документа] (https://en.wikipedia.org/wiki/Tf%E2%80%93idf)? Измените свой вопрос, чтобы предоставить эту информацию. –
Отредактировано! Спасибо! – ssokhey
Вопрос в том, действительно, «что важно, а что нет». Как только вы знаете, как это определить, вы можете реализовать алгоритм. И определение, которое полностью зависит от вас. Я бы сказал, это не вопрос питона. – zvone