2017-02-09 49 views
0

Я подготовил модель word2vec на моем наборе данных, используя пакет word2vec gensim. Мой набор данных имеет около 131 681 уникальных слов, но модель выводит векторную матрицу формы (47629,100). Таким образом, только 47 629 слов имеют связанные с ними векторы. А как насчет остальных? Почему я не могу получить 100-мерный вектор для каждого уникального слова?Запрос на модель Word2vec

ответ

1

Класс gensim Word2Vec использует значение по умолчанию min_count из 5, то есть любые слова, появляющиеся менее 5 раз в вашем корпусе, будут игнорироваться. Если вы включите регистрацию уровня INFO, вы должны увидеть зарегистрированные сообщения об этом и другие шаги, предпринятые обучением.

Обратите внимание, что трудно понять значащие векторы с несколькими примерами использования (без разнообразия). Поэтому, пока вы можете опустить min_count в 1, вы не должны ожидать, что эти векторы будут очень хорошими - и даже попытка их обучения может ухудшить ваши другие векторы. (Низкие слова могут быть по существу шумными, мешая тренировке других векторов векторов, где эти другие более часто встречающиеся слова имеют достаточно многочисленные/разнообразные примеры, чтобы быть лучше.)

+0

Привет, спасибо за удивительное объяснение .. . :) –