1

Поскольку я начинаю в этом поле, у меня возникает сомнение в том, что между тем, как различное значение epsilon повлияет на SARSA и Qlearning с помощью алгоритма epsilon greedy для выбора действия.Эффект различного значения epsilon для Q-обучения и SARSA

Я понимаю, что когда epsilon равно 0, действия всегда выбираются на основе политики, полученной из Q. Поэтому Q-обучение сначала обновляет Q и выбирает следующее действие на основе обновленного Q. С другой стороны, SARSA выбирает следующее действие и после обновлений Q.

Как насчет того, когда ε равно 1? и ε увеличивается от 0 до 1?

Спасибо!

ответ

2

ε-жадная политика выбирает случайное действие с вероятностью ε или наиболее известное действие с вероятностью 1-ε. При ε = 1 он всегда будет выбирать случайное действие. Это значение делает компромисс между разведкой и эксплуатацией: вы хотите использовать имеющиеся у вас знания, но вы также хотите искать лучшие альтернативы.

+0

Хм .. это то же самое для обучения и сарса? – user3064688

+0

Да, эта политика не зависит от алгоритма обучения. –

+0

подведите итог, так что я могу сказать, что при ε = 0 он всегда будет выбирать эксплуатацию, которая базируется только на знаниях, которые мы имеем, но когда ε = 1, он случайным образом предпринимает действия между исследованием и использованием, чтобы узнать какой-либо лучший способ для запуска. – user3064688

 Смежные вопросы

  • Нет связанных вопросов^_^