Я пытаюсь получить список тем из большого корпуса новостных статей, я планирую использовать gensim для извлечения распределения тем для каждого документа с помощью LDA. Я хочу знать формат обработанных статей, необходимых для gensim-реализации lda, и как конвертировать исходные статьи в этот формат. Я видел эту ссылку об использовании lda на дампе википедии, но я обнаружил, что корпус находится в обработанном состоянии, формат которого нигде не упоминался.Как использовать gensim для lda в новостных статьях?
3
A
ответ
3
Существует автономный этап обучения и шаг создания онлайн-функций.
Offline Learning
Предположим, у вас есть большой корпус, такие как Wikipedia или загрузить кучу новостных статей.
Для каждой статьи/документа:
- Вы получаете необработанный текст
- Вы lemmatize его. Gensim имеет utils.lemmatize
- Вы можете создать словарь
- Вы создать мешок представления слова
Тогда вы натренировать модель TF-IDF и конвертировать весь корпус в пространство TF-IDF. Наконец, вы тренируете модель LDA на корпусе TF-IDF.
Интернета
С входящими новостями статьями вы почти то же самым:
- Lemmatize это
- Создать мешок слова representaiton с использованием словаря.
- Преобразование его в TF-IDF-пространстве с использованием модели TF-IDF
- Преобразуйте его в пространство LDA.
4
Можете ли вы сказать, как конвертировать из пространства lda в норму, я не могу понять. – briskly
У вас есть распределение тем по документу и хотите иметь документ в пространстве TF-IDF? – Karsten