2016-07-25 2 views
-1

Я знаю, что в НЛП сложно определить тему предложения или, возможно, абзаца. Тем не менее, я пытаюсь определить, что может быть заголовком для чего-то вроде статьи в Википедии (конечно, без использования других методов). Мое единственное, хотя нахожу самые частые слова. В статье о Нью-Йорке, это были лучшие результаты:Как найти основную тему тела текста

[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)] 

Из этого я могу увидеть какой-то статистической значимости является резкое падение от 361 до 177. Несмотря на это, я не являюсь ни статистики или эксперт NLP (на самом деле я полный noob на обоих), поэтому - это жизнеспособный способ определения темы более длинного текста. Если да, то какую математику я хочу рассчитать? Если в NLP нет другого способа определить тему или заголовок для большей части текста? Для справки, я использую nltk и Python 3.

ответ

2

Если у вас есть достаточно данных, и хотели бы иметь темы для более крупный текст, например абзац или статью, вы можете использовать методы моделирования темы, такие как LDA.

Gensim имеет простую в использовании реализацию LDA.

+0

Можете ли вы предоставить ссылку на учебник или более подробно рассказать о себе. –

+0

Это шаг за шагом учебник от [gensim] (https://radimrehurek.com/gensim/wiki.html) , если вас больше интересует, как LDA работает внутри, вы можете проверить [this] (https: // www.cs.princeton.edu/~blei/kdd-tutorial.pdf) –

4

Вы можете рассмотреть возможность использования ниже алгоритмов. Это ключевое слово алгоритмы добывающие

TF-IDF

TextRank

Here учебник, чтобы вы начать с использованием TF-IDF в ntlk

+0

А? Вы делаете извлечение * до *, вы используете эти методы. – tripleee