Вопрос о том, как скорость обучения влияет на скорость конвергенции и сходимость. Если скорость обучения постоянна, будет ли функция Q сходиться к оптимальному или скорость обучения обязательно должна затухать, чтобы гарантировать конвергенцию?Уровень обучения обучающего агента Q
ответ
Это должно распадаться, иначе будут некоторые колебания, провоцирующие небольшие изменения в политике.
Скорость обучения должна распадаться, но не слишком быстро. не Условия сходимости являются следующие (к сожалению, не латекс):
сумма (альфа (т), 1, инф) = инф
сумма (альфа (т)^2, 1 , инф) < инф
что-то вроде альфа = K/(K + T) может хорошо работать.
В данной статье обсуждается именно эта тема:
скоростьhttp://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf
Учимся говорит величину шага, который принимается к решению.
Это не должно быть слишком большим число, как это может непрерывно колебаться вокруг минимумов и не должен быть слишком маленьким ряда еще это займет много времени и итераций, чтобы достичь минимума.
Причина распада рекомендуется в скорости обучения, потому что изначально, когда мы находимся на совершенно случайной точки в пространстве решений мы должны принимать большие скачки к решению, а затем, когда мы приблизились к нему, мы делаем небольшой скачки и, следовательно, небольшие улучшения, чтобы наконец достичь минимумов.
Аналогия можно сделать: в игре гольф когда мяч находится далеко от отверстия, игрок попадает очень трудно, чтобы получить как можно ближе к отверстию. Позже, когда он достигает отмеченной области, он выбирает другую палку, чтобы получить точный короткий выстрел.
Таким образом, его не то, что он не сможет положить мяч в отверстие, не выбирая короткую палку, он может отправить мяч впереди цели два или три раза. Но было бы лучше, если бы он играл оптимально и использовал правильное количество энергии, чтобы добраться до отверстия. То же самое касается разлагающейся скорости обучения.
С достаточной ** небольшой скоростью обучения у вас есть гарантия конвергенции для проблемы с выпуклой q. –
Я предполагаю, что существует также зависимость от природы МДП. Я ПРИНИМАЮ, что требования к конвергенции на MDP со стохастичностью в переходах состояний и/или в функции вознаграждения должны будут удовлетворять требованию, отправленному @purpletentacle. Тем не менее, я также ПРИНИМАЮ, если нет стохастичности ни в процессе, ни в награде, скорость обучения не должна распадаться. Оцените мнение кого-то, кто знает (желательно с поддержкой литературы). – ALM