2016-05-24 7 views
0

Я читал this article и кажется, что, учитывая достаточную память, вы всегда должны использовать Адам над другими возможными алгоритмами оптимизации (adadelta, rmsprop, vanilla sgd и т. Д.). Есть ли какие-либо примеры, будь то игрушка или реальный мир, в котором Адам будет делать значительно хуже, чем другой алгоритм? Я предполагаю, что для большей части выпуклой функции потери по большей части плотных входных данных вы, вероятно, получите более быструю конвергенцию с ванильным SGD, но вам все равно придется настраивать свой график обучения и материал, который занимает некоторое время.Причины не использовать tf.train.AdamOptmizer?

+0

Я видел, как люди предпочитают импульс над «AdamOptimizer», потому что он работал лучше для разреженных градиентов. –

ответ

0

Я, как правило, использую vanilla sgd, пока я все еще в процессе получения общей графики-графика, поскольку ADAM и AdaGrad приносят с собой много матриц - накладные расходы, что делает отладку действительно сложнее. Но как только у вас есть модель и вы хотите тренироваться в масштабе, я думаю, что ADAM, AdaGrad и rmsprop - это выбор. Мой личный опыт заключается в том, что работа над задачами seq2seq AdaGrad очень эффективна и стабильна.

0

нет оптимального метода оптимизации. См. «Нет бесплатной обеденной теоремы».

+0

Можете ли вы объяснить свои рассуждения, дать немного больше контекста и, если возможно, дать ссылку на указанную вами теорему? – mjuarez

 Смежные вопросы

  • Нет связанных вопросов^_^