Я пытаюсь создать модель языка нейронной сети, и кажется, что инструмент word2vec от Mikolov et al - хороший инструмент для этой цели. Я пробовал это, но он просто создает представления слов. Кто-нибудь знает, как я могу создать модель языка с помощью этого инструмента или любой другой разумной основы глубокого обучения?Как вычислить языковую модель с помощью инструмента word2vec?
ответ
Doc2Vec, реализованный в Gensim, выполняет эту работу. Фокус в том, что они используют идентификатор документа как контекстное слово, которое присутствует во всех размерах окна всех слов в документе.
Кодекс here in Python/Gensim
word2vec
- инструмент для представления одного слова (группы слов) в виде числового вектора. Поэтому он не имеет прямого отношения к языковой модели.
Для создания языковой модели вы можете использовать MITLM для этого. Например, вы можете создать модель N-грамм, используя корпус Lectures.txt
с помощью этой команды:
estimate-ngram -text Lectures.txt -write-lm Lectures.lm
Отличный учебник можно найти here.
Да, но моя цель - придерживаться моделей языка нейронной сети, особенно тех, которые очень близки к современным методам и имеют простую в использовании среду. – Ash
На самом деле word2vec изучает модель нейронного языка, а затем отбрасывает свои интеллектуальные способности, сохраняя только внутренние представления (вложения) целевого слова. – cvangysel
Microsoft Research выпустила набор инструментальных средств для моделирования языков с векторами в стиле word2vec. Вы можете найти его here.
Я использую OpenNLP прямо сейчас. – mvw
Теперь я знаю, что вы не можете построить модель языка нейронной сети с word2vec, благодаря Phyrox. Так что мне нужен инструмент глубокого обучения с простой в использовании функцией для создания языковых моделей. – Ash