Уровень обучения обучающего агента Q

Вопрос о том, как скорость обучения влияет на скорость конвергенции и сходимость. Если скорость обучения постоянна, будет ли функция Q сходиться к оптимальному или скорость обучения обязательно должна затухать, чтобы гарантировать конвергенцию?Уровень обучения обучающего агента Q

источник

2015-10-08 igotca

С достаточной ** небольшой скоростью обучения у вас есть гарантия конвергенции для проблемы с выпуклой q. –

Я предполагаю, что существует также зависимость от природы МДП. Я ПРИНИМАЮ, что требования к конвергенции на MDP со стохастичностью в переходах состояний и/или в функции вознаграждения должны будут удовлетворять требованию, отправленному @purpletentacle. Тем не менее, я также ПРИНИМАЮ, если нет стохастичности ни в процессе, ни в награде, скорость обучения не должна распадаться. Оцените мнение кого-то, кто знает (желательно с поддержкой литературы). – ALM

Это должно распадаться, иначе будут некоторые колебания, провоцирующие небольшие изменения в политике.

источник

2016-01-28 13:02:59 user2526028

Скорость обучения должна распадаться, но не слишком быстро. не Условия сходимости являются следующие (к сожалению, не латекс):

сумма (альфа (т), 1, инф) = инф
сумма (альфа (т)^2, 1 , инф) < инф

что-то вроде альфа = K/(K + T) может хорошо работать.

В данной статье обсуждается именно эта тема:

скорость

http://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf

источник

2016-02-27 09:32:35 purpletentacle

Учимся говорит величину шага, который принимается к решению.

Это не должно быть слишком большим число, как это может непрерывно колебаться вокруг минимумов и не должен быть слишком маленьким ряда еще это займет много времени и итераций, чтобы достичь минимума.

Причина распада рекомендуется в скорости обучения, потому что изначально, когда мы находимся на совершенно случайной точки в пространстве решений мы должны принимать большие скачки к решению, а затем, когда мы приблизились к нему, мы делаем небольшой скачки и, следовательно, небольшие улучшения, чтобы наконец достичь минимумов.

Аналогия можно сделать: в игре гольф когда мяч находится далеко от отверстия, игрок попадает очень трудно, чтобы получить как можно ближе к отверстию. Позже, когда он достигает отмеченной области, он выбирает другую палку, чтобы получить точный короткий выстрел.

Таким образом, его не то, что он не сможет положить мяч в отверстие, не выбирая короткую палку, он может отправить мяч впереди цели два или три раза. Но было бы лучше, если бы он играл оптимально и использовал правильное количество энергии, чтобы добраться до отверстия. То же самое касается разлагающейся скорости обучения.

источник

2017-07-11 11:48:59 VishalTheBeast

Уровень обучения обучающего агента Q

ответ

Смежные вопросы