Вышеуказанный снимок от Distributed Representations of Sentences and Documents, документ, представляющий Doc2Vec. Я использую реализацию Gensim для Word2Vec и Doc2Vec, которые великолепны, но я ищу ясность по нескольким вопросам.
- Для данной модели doc2vec
dvm
, чтоdvm.docvecs
? Мое впечатление, что это усредненный или конкатенированный вектор, который включает в себя все слова вложения и вектор абзаца,d
. Это правильно, или это d? - Предполагается, что
dvm.docvecs
не являетсяd
, может ли один доступ к нему сам? Как? - В качестве бонуса, как рассчитывается
d
? Бумага только говорит:
В нашем пункте Векторные рамки (см Рисунок 2), каждый пункт отображается уникальный вектор, представленный в столбца в матрице D и каждое слово, также отображается к уникальный вектор, представленный колонкой в матрице W.
Спасибо за любые указания!
Спасибо за ответ. Если я понимаю ваше первое предложение, 'docvecs' - это уникальный документ документа, соответствующий вектору рядом с« Average/Concatenate »на рисунке выше. Это верно? –
Фактически 'model.docvecs' - это вспомогательный объект, содержащий * все * обучаемые документы-векторы. Это (и, в частности, его массив 'doctag_syn0', который похож на« матрицу абзаца на диаграмме »), для получения отдельного вектора * D * (как на диаграмме оранжевого), для смешивания с word-векторами для одного примера обучения , – gojomo
Интересно. И когда используется 'dm = 0' и, следовательно, используется алгоритм PV-DBOW, этот' model.docvecs' равен 'model.docvecs.doctag_syn0'. Это имеет смысл, я полагаю, потому что нет вложений слов, соединенных с матрицей абзаца. Спасибо за помощь! –