Я знаю, что в НЛП сложно определить тему предложения или, возможно, абзаца. Тем не менее, я пытаюсь определить, что может быть заголовком для чего-то вроде статьи в Википедии (конечно, без использования других методов). Мое единственное, хотя нахожу самые частые слова. В статье о Нью-Йорке, это были лучшие результаты:Как найти основную тему тела текста
[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)]
Из этого я могу увидеть какой-то статистической значимости является резкое падение от 361 до 177. Несмотря на это, я не являюсь ни статистики или эксперт NLP (на самом деле я полный noob на обоих), поэтому - это жизнеспособный способ определения темы более длинного текста. Если да, то какую математику я хочу рассчитать? Если в NLP нет другого способа определить тему или заголовок для большей части текста? Для справки, я использую nltk и Python 3.
Можете ли вы предоставить ссылку на учебник или более подробно рассказать о себе. –
Это шаг за шагом учебник от [gensim] (https://radimrehurek.com/gensim/wiki.html) , если вас больше интересует, как LDA работает внутри, вы можете проверить [this] (https: // www.cs.princeton.edu/~blei/kdd-tutorial.pdf) –