Слово2vec - это всего лишь набор наборов слов-векторов, в большинстве случаев это текстовый файл, каждая строка содержит слово и его вектор-слово, разделенные пробелом (или вкладкой).
Вы можете обучить это слово2vec на любом языке программирования. Загрузка текстового файла не должна быть проблемой для вас.
С точки зрения китайцев, я хотел бы предложить 3 инструмента:
1) the Character-enhanced Word Embedding (c++)
Xinxiong Чэнь Лэй Сюй Чжиюань Лю, Maosong ВС, Huanbo Луан. Совместное изучение символов и вставок слов. 25-я Международная совместная конференция по искусственному интеллекту (IJCAI 2015).
Пожалуйста заметил, что выход КВО отделена вкладки (\ т)
2) Fast text by Facebook (c++)
FastText мог тренироваться на китайском, он построен на характер н-грамм. В моей статье:
Aicyber’s System for IALP 2016 Shared Task: Character-enhanced Word Vectors and Boosted Neural Networks
Я установил минимальный характер энграмм 1 для китайцев.
3) Gensim (питон)
@Howardyan было показать вам код для использования gensim, включая Tokenizer. Пожалуйста, обратите внимание, что метод обучения по умолчанию - это CBOW для gensim. Скип-грамм может дать вам лучшие результаты, зависит от ваших данных. И вот сравнение на gensim and Fasttext.
PS: Оба 1) 2) поддерживают обучение оригинальному word2vec.
Это может помочь вам: http://www.slideshare.net/radiohead0401/running-word2vec-with-chinese-wikipedia-dump –
Прочитал это уже. Это хорошо, но для питона. Need for java –
Что вам нужно для китайского?Word2vec работает только с векторами слов или векторами символов в случае мандарина ... Вы говорите о парсерах? У Стэнфорда есть хороший: http://nlp.stanford.edu/projects/chinese-nlp.shtml – tremstat