2017-01-12 45 views
2

Я использую gensim doc2vec. Я хочу знать, есть ли эффективный способ узнать размер словаря из doc2vec. Один грубый способ - подсчитать общее количество слов, но если данные огромны (1 ГБ или более), то это не будет эффективным способом.Есть ли способ получить размер словаря из модели doc2vec?

ответ

3

Если model ваша обучен модель Doc2Vec, то количество уникальных лексем слов в уцелевшей лексики после применения вашего min_count доступна:

len(model.wv.vocab) 

Количество обученных тегов документа доступна:

len(model.docvecs) 
+0

Нет такого параметра, как vocab. – Yesh

+1

Конечно, было - на момент написания! И все-таки - просто в другом месте! В более поздних версиях gensim объект 'vocab' был перенесен в составное свойство' wv', а в 1.0.0, выпущенном в феврале 2017 года после ответа на 1-ое письмо, появилась возможность обратной совместимости для доступа к 'vocab' через 'model.vocab' был удален. Ответ выше был обновлен, чтобы соответствовать текущему gensim. – gojomo

+0

Welp, я удалил свой комментарий, так как ваши и мои были такими же. – Yesh