2016-10-13 11 views
1

Я работаю над texts tensumflow (модель суммирования текста). Я поставил его на запуск для обучения модели с образцами данных, то есть набора данных игрушек, снабженного моделью при клонировании из git. Я хотел знать, сколько времени потребуется для обучения модели и декодирования с помощью набора данных образца? Это уже заняло более 17 часов и все еще работает.Сколько времени понадобится для обучения с данными образца (данные выборочных данных) для тензорного текста?

+0

Как @Eilian заявил ниже, если вы используете это на процессоре, вы можете быть там некоторое время. Если у вас нет доступа к графическому процессору, вы можете посмотреть, как попасть в экземпляр AWS G2 или P2: https://aws.amazon.com/ec2/instance-types/ Когда я провел тренировку против набора данных игрушек , Я получил приличные результаты с очень низкой средней потерей после примерно одного дня обучения на своем 980M. Важно отметить, однако, что вы не получите достоверных результатов, если вы используете включенный вокальный набор данных игрушек, поскольку слова в учебном наборе не находятся в файле словаря игрушек. https://github.com/tensorflow/models/issues/464 – xtr33me

+0

Я запускаю учебную модель на GPU, y. Но я изменил max_run_steps на «2000». Он работал в течение 2-3 часов, и модель тренировалась. –

+0

здесь, я разделил набор данных игрушек на 17-4 (тренировочный тест). и обучил модель с тем же самым вокальным файлом. но я столкнулся с некоторой проблемой с шагом декодирования. Нужно ли изменять файл vocab при изменении данных обучения? Как я могу сгенерировать файл vocab из набора учебных данных? –

ответ

1

К сожалению, набор обучающих данных для игрушек предназначен только для того, чтобы предоставить вам средства для просмотра общего потока модели и не для того, чтобы обеспечить вам достойные результаты. Это связано с тем, что для получения хороших результатов недостаточно данных, представленных в наборе данных игрушек.

Количество времени, которое трудно представить, поскольку оно касается всего оборудования, на котором вы работаете. Таким образом, вы обычно тренируетесь до тех пор, пока не получите среднюю потерю от 2 до 1. Xin Pan заявила, что с большими наборами данных вы никогда не должны опускаться ниже 1,0 авг. Так что на моем 980M я смог получить это менее чем за один день с набором данных игрушек.

Тем не менее, мои результаты были очень плохими, и я думал, что что-то не так. Я обнаружил, что единственное, что было неправильно, у меня было недостаточно данных. Затем я соскаблил около 40 тыс. Статей, но результаты были неприемлемыми. Недавно я тренировался против 1,3 миллиона статей, и результаты были намного лучше. После дальнейшего анализа это связано прежде всего с тем, что модель текстов является абстрактной, а не экстрактивной.

Надеюсь, это несколько помогает. Для 1,3 миллиона и пакетного набора до 64 я смог подготовить модель на своем оборудовании менее чем за полтора недели, используя TF 0.9, cuda 7.5 и cudnn 4. Я слышал, что новый cudn/cuda должен быть быстрее , но я пока не могу говорить об этом.

0

На моем процессоре i5, используя только процессор, потребовалось около 60 часов, чтобы достичь значения 0,17 для набора данных для обучения игрушек.

Используя 8 гб памяти, он потребляет дополнительную память около 10 гб дополнительной свопинга. Увеличенный барабан и использование GPU могли бы обеспечить лучшие результаты. В настоящее время я не могу показать изображение средней потери от тензора, но, надеюсь, на ваш запрос был дан ответ.