Я пытаюсь понять связь между векторами word2vec и doc2vec в реализации Gensim. В моем приложении я помещаю несколько документов с тем же ярлыком (тема), я тренирую модель doc2vec на своем корпусе, используя dbow_words = 1 для обучения векторов слов. Я смог получить сходство между векторами слов и векторов таким образом, что делает большой смысл Например. получать документы этикетки похожи на слова- doc2vec_model.docvecs.most_similar (положительный = [doc2vec_model [ «управление»]], TopN = 50))запрос вектора вектора и абзаца
Мой вопрос, однако, о теоретической интерпретации вычисления подобия между word2vec и doc2vec векторов , Было бы безопасно предположить, что при обучении на одном корпусе с одинаковой размерностью (d = 200) векторы векторов и векторы документов всегда можно сравнить, чтобы найти похожие слова для метки документа или аналогичных ярлыков документа для слова. Любые предложения/идеи приветствуются.
Вопрос 2: Мои другие вопросы касаются воздействия высокой/низкой частоты слова в конечной модели word2vec. Если wordA и wordB имеют сходные контексты в определенной метке (наборе) документа, но wordA имеет гораздо более высокую частоту, чем wordB, будет ли wordB иметь более высокий балл сходства с соответствующей меткой doc или нет. Я пытаюсь обучить несколько моделей word2vec путем выборочного анализа тела во временном режиме и хочу знать, будет ли также увеличиваться гипотеза о том, что, поскольку слова становятся все более частыми, предполагая, что контекст относительно похож на аналогичный, оценка сходства с меткой документа. Неужели я ошибаюсь, чтобы сделать это предположение? Любые предложения/идеи очень приветствуются.
Спасибо, Manish