2016-11-07 19 views
0

Я пытаюсь понять связь между векторами word2vec и doc2vec в реализации Gensim. В моем приложении я помещаю несколько документов с тем же ярлыком (тема), я тренирую модель doc2vec на своем корпусе, используя dbow_words = 1 для обучения векторов слов. Я смог получить сходство между векторами слов и векторов таким образом, что делает большой смысл Например. получать документы этикетки похожи на слова- doc2vec_model.docvecs.most_similar (положительный = [doc2vec_model [ «управление»]], TopN = 50))запрос вектора вектора и абзаца

Мой вопрос, однако, о теоретической интерпретации вычисления подобия между word2vec и doc2vec векторов , Было бы безопасно предположить, что при обучении на одном корпусе с одинаковой размерностью (d = 200) векторы векторов и векторы документов всегда можно сравнить, чтобы найти похожие слова для метки документа или аналогичных ярлыков документа для слова. Любые предложения/идеи приветствуются.

Вопрос 2: Мои другие вопросы касаются воздействия высокой/низкой частоты слова в конечной модели word2vec. Если wordA и wordB имеют сходные контексты в определенной метке (наборе) документа, но wordA имеет гораздо более высокую частоту, чем wordB, будет ли wordB иметь более высокий балл сходства с соответствующей меткой doc или нет. Я пытаюсь обучить несколько моделей word2vec путем выборочного анализа тела во временном режиме и хочу знать, будет ли также увеличиваться гипотеза о том, что, поскольку слова становятся все более частыми, предполагая, что контекст относительно похож на аналогичный, оценка сходства с меткой документа. Неужели я ошибаюсь, чтобы сделать это предположение? Любые предложения/идеи очень приветствуются.

Спасибо, Manish

ответ

0

В режиме обучения, где слова-векторы и doctag-векторы являются взаимозаменяемыми во время тренировки, для того же окружающие-слов предсказания-задачи, они, как правило, по значению сравнимы. (Ваш режим, DBOW с чередованием skip-gram word-training, подходит для этого и используется в режиме «Document Embedding with Paragraph Vectors».)

Ваш второй вопрос абстрактный и умозрительный; Думаю, вам придется самим протестировать эти идеи. Процессы Word2Vec/Doc2Vec тренируют векторы, чтобы быть хорошими при определенных механических задачах предсказания слов, с учетом ограничений модели и компромиссов с качеством других векторов. То, что результирующая пространственная компоновка оказывается тогда полезной для других целей - ранжированное/абсолютное сходство, сходство по некоторым концептуальным линиям, классификация и т. Д. - это просто наблюдаемая, прагматическая выгода. Это «трюк, который работает» и может дать представление, но многие способы изменения моделей в ответ на различные варианты параметров или характеристики корпуса не были теоретически или экспериментально разработаны.

 Смежные вопросы

  • Нет связанных вопросов^_^