2012-04-02 6 views
3

Я пытаюсь получить список тем из большого корпуса новостных статей, я планирую использовать gensim для извлечения распределения тем для каждого документа с помощью LDA. Я хочу знать формат обработанных статей, необходимых для gensim-реализации lda, и как конвертировать исходные статьи в этот формат. Я видел эту ссылку об использовании lda на дампе википедии, но я обнаружил, что корпус находится в обработанном состоянии, формат которого нигде не упоминался.Как использовать gensim для lda в новостных статьях?

ответ

3

Существует автономный этап обучения и шаг создания онлайн-функций.

Offline Learning

Предположим, у вас есть большой корпус, такие как Wikipedia или загрузить кучу новостных статей.

Для каждой статьи/документа:

  1. Вы получаете необработанный текст
  2. Вы lemmatize его. Gensim имеет utils.lemmatize
  3. Вы можете создать словарь
  4. Вы создать мешок представления слова

Тогда вы натренировать модель TF-IDF и конвертировать весь корпус в пространство TF-IDF. Наконец, вы тренируете модель LDA на корпусе TF-IDF.

Интернета

С входящими новостями статьями вы почти то же самым:

  1. Lemmatize это
  2. Создать мешок слова representaiton с использованием словаря.
  3. Преобразование его в TF-IDF-пространстве с использованием модели TF-IDF
  4. Преобразуйте его в пространство LDA.
+0

Можете ли вы сказать, как конвертировать из пространства lda в норму, я не могу понять. – briskly

+0

У вас есть распределение тем по документу и хотите иметь документ в пространстве TF-IDF? – Karsten

4

Я не знаю, правильно ли я получил проблему, но gensim поддерживает несколько корпусов. Вы можете найти их список here.

Если вы хотите обработать естественный язык, сначала нужно подделать текст. Вы можете следовать пошаговому руководству на веб-сайте gensim here. Это объясняется довольно хорошо.