2016-05-23 5 views
0

Я узнал о Word2Vec (Deeplearning4j), но я не мог найти ничего об этом, поддерживая китайский язык. Из разных источников я узнал, что он может работать и на китайском языке, используя некоторый плагин.Word2Vec with chinese

Поэтому, пожалуйста, скажите мне какой-нибудь плагин для китайца, а также как он должен быть реализован с помощью word2vec.

И если Deeplearning4j Word2Vec хорош или нет для поддержки на английском и китайском языках (оба). Если нет, предложите лучший выбор с его ссылкой.

Язык: Java

+0

Это может помочь вам: http://www.slideshare.net/radiohead0401/running-word2vec-with-chinese-wikipedia-dump –

+0

Прочитал это уже. Это хорошо, но для питона. Need for java –

+0

Что вам нужно для китайского?Word2vec работает только с векторами слов или векторами символов в случае мандарина ... Вы говорите о парсерах? У Стэнфорда есть хороший: http://nlp.stanford.edu/projects/chinese-nlp.shtml – tremstat

ответ

0

я не знаю Java, но я могу показать вам, как использовать Python, чтобы сделать это:

import jieba 
import gensim 
q = [u'我到河北省来', u'好棒好棒哒'] 
z = [list(jieba.cut(i)) for i in q] 
model = gensim.models.Word2Vec(z, min_count=1) 
model.similar_by_word(u'我') 

результат не хорошо, так как данные тренировки очень-очень мало. Если добавить больше данных, результат будет лучше. И для вашего условия вы можете использовать Tokenizer, написанный Java, и выполнять ту же работу, что и библиотека jieba, а затем просто поместить правильные данные формата для моделирования и обучения.

0

Слово2vec - это всего лишь набор наборов слов-векторов, в большинстве случаев это текстовый файл, каждая строка содержит слово и его вектор-слово, разделенные пробелом (или вкладкой).

Вы можете обучить это слово2vec на любом языке программирования. Загрузка текстового файла не должна быть проблемой для вас.

С точки зрения китайцев, я хотел бы предложить 3 инструмента:

1) the Character-enhanced Word Embedding (c++)

Xinxiong Чэнь Лэй Сюй Чжиюань Лю, Maosong ВС, Huanbo Луан. Совместное изучение символов и вставок слов. 25-я Международная совместная конференция по искусственному интеллекту (IJCAI 2015).

Пожалуйста заметил, что выход КВО отделена вкладки (\ т)

2) Fast text by Facebook (c++)

FastText мог тренироваться на китайском, он построен на характер н-грамм. В моей статье:

Aicyber’s System for IALP 2016 Shared Task: Character-enhanced Word Vectors and Boosted Neural Networks

Я установил минимальный характер энграмм 1 для китайцев.

3) Gensim (питон)

@Howardyan было показать вам код для использования gensim, включая Tokenizer. Пожалуйста, обратите внимание, что метод обучения по умолчанию - это CBOW для gensim. Скип-грамм может дать вам лучшие результаты, зависит от ваших данных. И вот сравнение на gensim and Fasttext.

PS: Оба 1) 2) поддерживают обучение оригинальному word2vec.