В настоящее время я использую PyLucene, но поскольку для этого нет документации, я думаю, что решение в Java для Lucene также будет (но если у кого-то есть один Python было бы еще лучше).Получите N терминов с верхними оценками TFIDF для каждого документа в Lucene (PyLucene)
Я работаю с научными публикациями, и на данный момент я извлекаю ключевые слова из них. Однако для некоторых документов просто нет ключевых слов. Альтернативой этому было бы получить N слов (5-8) с самыми высокими баллами TFIDF.
Я не знаю, как это сделать, а также , когда. К тому времени, когда я имею в виду: я должен сказать Lucene на этапе индексирования для вычисления этих значений, это можно сделать при поиске индекса.
То, что я хотел бы иметь для каждого запроса будет что-то вроде этого:
Query Ranking
Document1, top 5 TFIDF terms, Lucene score (default TFIDF)
Document2, " " , " "
...
Что бы также возможно является первым получить ранжирование для запроса, а затем вычислить верхние 5 TFIDF условия для каждый из этих документов.
Есть ли у кого-нибудь идеи, как мне это сделать?
Спасибо за ваш ответ :) В итоге я получил то, что хотел на Python. Я отправлю свой ответ, чтобы другие люди, борющиеся с PyLucene, могли это увидеть! –