Я пытаюсь обучить свою модель данными размером 50 МБ. Мне просто интересно, существует ли правило/алгоритм для определения размера измерения для алгоритма.Какое должно быть измерение векторов для алгоритма word2vec для данных 50 мб
2
A
ответ
0
Я бы предположил, что текстовый файл размером 50 МБ содержит около 500 000 предложений или 5 миллионов токенов. Это слишком мало для обучения содержательному встраиванию, однако здесь приведены эмпирические данные (обученные 6 миллиардам токенов), о которых вы могли бы обратиться.
Источник: https://nlp.stanford.edu/pubs/glove.pdf