Приблизительно, сколько времени должно пройти обучение по текстуму, чтобы сбросить среднюю потерю в приличную стоимость

Я работаю над тем, чтобы работать с текстом, и недавно получил свои собственные очищенные данные. Я начал тренироваться прошлой ночью против 38000 статей. Сегодня утром, когда я посмотрел на среднюю потерю, я был около 5.2000000. Когда я играл с набором игрушек textum, я смог быстро спуститься примерно до 0,0000054, но это было только против 20 статей.Приблизительно, сколько времени должно пройти обучение по текстуму, чтобы сбросить среднюю потерю в приличную стоимость

Я надеялся, что кто-то, у кого был немного больше опыта, мог бы дать мне некоторые ожидания относительно того, как долго будет проходить обучение. В настоящее время я запускаю это на Nvidia 980M. На прошлой неделе мне захотелось попробовать экземпляр AWS g2.2xlarge, но я обнаружил, что по иронии судьбы казалось, что моя локальная машина обрабатывает вещи быстрее, чем Grid 520. Я все еще хочу проверить экземпляры P2, а также Google Cloud, но пока думаю, что я просто буду работать с моей локальной машиной.

Любая информация, которую любой может предоставить здесь, относительно того, что я должен ожидать? Благодаря!

источник

2016-10-14 xtr33me

Так что я просто собираюсь ответить на это сам, так как я могу в значительной степени сделать это в этот момент. Одна вещь, которую я нашел интересной из другого сообщения, заключается в том, что при большом наборе данных вы действительно не должны тренироваться ниже 1 по отношению к значению «средняя потеря». Это происходит из-за того, что вы начинаете переходить на «переобучение». Поэтому в моем текущем обучении против 40-килограммовых статей, использующих Nvidia 980M моего ноутбука, файл вокала имеет 65997 слов, и в среднем на один день в среднем выпадает «средний убыток» на единое целое число. Поэтому в настоящее время я вижу цифры от 1,2 до 2,8.

------ Редактировать ------ Когда я запускал декодирование данных с моей средней потерей на приведенных выше номерах, результаты были довольно плохими. Подумав об этом больше, я понял, что мой набор данных, вероятно, не является «большим» набором данных. Такие, как Xin Pan и другие, имеющие доступ к набору данных Gigaword, проходят обучение против 1 миллиона + статей. Поэтому я считаю, что мои 40-килобайтные статьи ничего не сравнивают. Также, когда было сделано заявление выше, я не уверен, имел ли он в виду среднюю потерю 1 или это было бы 0,01. В любом случае, теперь я имею в виду Tensorboard, чтобы немного визуализировать «переобучение», и я продолжаю свое обучение, пока не получаю более низкий средний убыток. Я добавлю к этому позже, когда мои результаты будут лучше.

Надеюсь, это даст немного ссылки для тех из вас, которые задаются вопросом о том же.

источник

2016-10-17 15:16:16 xtr33me

В настоящее время такая же проблема. Что в итоге закончилось с вашей моделью? –

У вас ребята получили лучший результат? –

Приблизительно, сколько времени должно пройти обучение по текстуму, чтобы сбросить среднюю потерю в приличную стоимость

ответ

Смежные вопросы