может помочь учебному агенту по обучению разделить дискретное распределение

В сетке, если я начну предпринимать действия после первоначальной политики как дискретное распределение среди доступных действий. скажем, у меня в каждом штате четыре действия (север, юг, восток, запад), теперь я решаю, что в каждом штате 50% времени я выберу действие «север». 30% времени я выберу действие «юг». 10% действия времени «восток» и отдых 10% действия «запад». какой эффект он будет оказывать на оптимальную политику. если бы я выбрал равномерное случайное распределение среди действий. я предполагаю, что изучение действия более часто позволит значению q для этого состояния и пары действий будет сходиться быстро и будет более аутентичным. но никоим образом, если я исследую действие, его q-значение будет больше. скажите, пожалуйста, правильно ли я или нет.может помочь учебному агенту по обучению разделить дискретное распределение

источник

2016-07-06 Prabir

Если ваше распределение позволяет вам добраться до любого состояния в вашем мире, тогда не будет никакого эффекта, поскольку ваше количество эпизодов приближается к бесконечности. То есть вы получите ровно ту же самую оптимальную политику (при условии, что существует только одна оптимальная политика) независимо от распределения вероятности, из которого вы делаете свои действия.

Конечно, это применимо в теории, но на практике вы можете заметить другой побочный эффект изменения распределения вероятности.

Предположим, что вы находитесь в мире, что позволяет выбрать только влево или право. Если цель всегда слева, а вероятность выбора слева действие составляет 99%, вы получите оптимальную политику очень быстро. Если вероятность выбора оставила, действие равно 1%, то вы получите оптимальную политику очень медленно. В любом случае, с достаточным количеством эпизодов, вы получите оптимальную политику.

То же самое относится к электронно-жадным методам, в которых распределение вероятности может изменяться во время эпизода.

источник

2016-07-06 19:34:12 Andnp

Таким образом, это означает, что когда бы то ни было, наша цель - всегда безопасно предпринимать действия, используя равномерное случайное распределение среди доступных действий. потому что тогда мы всегда найдем оптимальную политику в среднем без итераций (между минимумом и отсутствием эпизода, приближающимся к бесконечности). и принятие мер после распространения не имеет особой пользы, пока я не получу специальную информацию о состоянии цели. как вы упомянули «цель всегда слева». – Prabir

Я думаю, что я бы уклонился от высказывания, что всегда * безопасно использовать равномерное случайное распределение. Любое распределение безопасно, пока можно получить доступ к каждому состоянию, следуя за этим распределением. Определенные распределения могут иметь преимущество более быстрой конвергенции в соответствии с окружающей средой. Это может иметь место даже без каких-либо дополнительных знаний об окружающей среде, но обнаруживается только посредством экспериментов. – Andnp

может помочь учебному агенту по обучению разделить дискретное распределение

ответ

Смежные вопросы