2017-02-04 12 views
1

Насколько хорошо поняты руководящие принципы, когда следует использовать исключение или просто получить больше данных? Я раньше понимал, что, учитывая достаточные данные, не хотелось бы использовать выпадение. Тем не менее, у меня недавно была модель (4-слойный LSTM-обработка аудиовхода), которая эмпирически сходилась к определенной потере, независимо от того, сколько данных я предоставил, и был значительно улучшен, когда я добавил исключение.Отказоустойчивость улучшает модели даже при доступе к бесконечным данным?

Является ли это явление хорошо понятым? Следует ли всегда использовать выпадение, даже если имеется больше (потенциально бесконечных) данных?

Последующие действия: если это так, я не видел много упоминаний о отсева в документах RL. Я предполагал, что это потому, что есть бесконечные генерируемые данные. Существуют ли другие нюансы для рассмотрения здесь о части исследуемого космического пространства или о разнородности данных обучения и т. Д.?

ответ

5

Выпадение уменьшает точность вашего поезда в обмен на точность испытаний. Однако ваша производительность по данным ограничена точностью обучения. В мире с бесконечными независимыми распределенными данными можно было бы получить производительность по задаче, равную обучающему набору, потому что по сути это одни и те же данные.

Однако на практике у вас никогда не будет такого хорошего учебного набора. Даже если вы получите бесконечные данные, он не будет представлять ваше распределение и определенно не будет независимым.

+0

Спасибо за ответ @Thomas. Очень кратким описанием компромисса. Похоже, вы говорите, что есть * не * преимущества использования отсева с неограниченным и совершенным набором тренировок, но, учитывая вероятность зависимости в учебном наборе, он все равно может быть полезен - это правильно? –

+0

Да, это правильно. –

0

Существует нет точного рецепта на выпадение, поскольку Hinton's group 2014 paper, похоже, подтверждает. Тем не менее они пишут, что там:

Выпадение вводит значительное количество шума в градиентах по сравнению со стандартными стохастического градиентного спуска. Поэтому многие градиенты имеют тенденцию отменять друг друга. Чтобы компенсировать это, сеть отсева должна обычно использовать в 10-100 раз больше скорости обучения, чем была оптимальной для стандартной нейронной сети.

Так что моя наивная догадка является фактором 10-100 дополнительных данных обучения. Обратите внимание, что использование отсева может практически утроить количество необходимых режимов обучения - дополнительный фактор, который необходимо учитывать.

+0

Спасибо за ответ @Gavin. Вы говорите наивно, что вам понадобится 10-100x данных для того, чтобы получить выравнивание, полученное с выпадением? Или этот отсева означает, что вам нужно больше данных? Бывший имеет смысл для меня, хотя мне особенно любопытно, есть ли причины для выбывания полезны даже после предотвращения переобучения (например, принудительное исполнение компактных представлений, устойчивость к шуму и т. Д.). –

 Смежные вопросы

  • Нет связанных вопросов^_^