Я совершенно не знаком с word2vec, поэтому, пожалуйста, несите его со мной. У меня есть набор текстовых файлов, каждый из которых содержит набор твитов, между 1000-3000. Я выбрал общее ключевое слово ("kw1"
), и я хочу найти семантически релевантные термины для "kw1"
с использованием word2vec. Например, если ключевое слово "apple"
, я бы ожидал увидеть связанные термины, такие как "ipad" "os" "mac"
... на основе входного файла. Таким образом, этот набор связанных терминов для "kw1"
будет отличаться для каждого входного файла, поскольку word2vec будет обучаться на отдельных файлах (например, 5 входных файлов, запустите word2vec 5 раз для каждого файла).Применение word2vec в небольших текстовых файлах
Моя цель - найти наборы связанных терминов для каждого входного файла с учетом общего ключевого слова ("kw1"
), который будет использоваться для некоторых других целей.
Мои вопросы/сомнения:
- ли смысл использовать word2vec для задачи, как это? это технически правильно использовать, учитывая небольшой размер входного файла?
Я скачал код с code.google.com: https://code.google.com/p/word2vec/ и просто дали ему всухую следующим образом:
time ./word2vec -train $file -output vectors.bin -cbow 1 -size 200 -window 10 -negative 25 -hs 1 -sample 1e-3 -threads 12 -binary 1 -iter 50
./distance vectors.bin
Из моих результатов, которые я видел, я получаю много шумные термины (стоп-слова), когда я использую инструмент
'distance'
для получения связанных терминов до"kw1"
. Поэтому я удалил стоп-слова и другие шумные термины, такие как упоминания пользователей. Но я не видел нигде, что word2vec требует очистки входных данных?Как вы выбираете правильные параметры? Я вижу, что результаты (от запуска инструмента
distance
) сильно меняются при изменении таких параметров, как'-window'
,'-iter'
. Какой метод я должен использовать, чтобы найти правильные значения для параметров. (ручная пробная версия и ошибка для меня невозможны, поскольку я буду расширять набор данных).
Интересный, но не совсем правильный stackexchange, чтобы задать эти вопросы. Я предлагаю задать вопрос о datascience.stackexchange.com или https://groups.google.com/forum/#!forum/gensim – alvas