2017-02-05 8 views
0

Смысл сказать, что если во время обучения вы установили слишком высокий уровень обучения, и, к сожалению, вы достигли локального минимума, где значение слишком велико, хорошо ли переучиваться с более низкой скоростью обучения или вы должны начать с более высокой скорости обучения для малоэффективной модели, в надежде, что потеря убережет местный минимум?Машинное обучение: лучше ли переучивать модель, если потеря застаивается при высокой стоимости?

+0

Об этом не может быть дан ответ. Оба подхода могут работать и терпеть неудачу. Он всегда зависит от данных NN +. Обычно используется небольшая часть набора данных для настройки скорости обучения, что также может потерпеть неудачу (при невыпуклой оптимизации), но это допустимый подход в выпуклой настройке, подкрепленный теорией (мы используем алгоритмы обучения, которые были разработаны для выпуклой оптимизации в конце концов, поэтому на практике она неплохо работает). – sascha

ответ

1

В строгом смысле вам не нужно переучиваться, так как вы можете продолжить обучение с более низкой скоростью обучения (это называется учебным графиком). Очень распространенным подходом является снижение скорости обучения (обычно деление на 10) каждый раз, когда потеря стагнирует или становится постоянной.

Другой подход заключается в использовании оптимизатора, который масштабирует скорость обучения с помощью градиентной величины, поэтому скорость обучения естественным образом уменьшается, когда вы приближаетесь к минимумам. Примерами этого являются ADAM, Adagrad и RMSProp.

В любом случае, убедитесь, что вы нашли оптимальную скорость обучения в наборе валидации, это значительно улучшит производительность и ускорит обучение. Это относится как к обычным SGD, так и к любому другому оптимизатору.

+1

Несмотря на то, что выбор лучшей скорости обучения значительно улучшил мои модели, несмотря на то, что я использовал планирование обучения и/или ADAM. –

+0

Я бы тоже сказал, что настроенные SGD (параметры) будут лучше ADAM и co. в большинстве случаев (с тщательной гиперпараметрической оптимизацией, если для этого достаточно ресурсов). В наиболее хорошо цитируемых документах используется ванильный SGD (и часто объясняют, что он выбирает, большую часть времени: более быстрое обучение) для окончательной учебной задачи, часто даже без импульса. – sascha

+0

@ThomasPinetz Да, я согласен, я забыл об этом :) –