Поскольку я начинаю в этом поле, у меня возникает сомнение в том, что между тем, как различное значение epsilon повлияет на SARSA и Qlearning с помощью алгоритма epsilon greedy для выбора действия.Эффект различного значения epsilon для Q-обучения и SARSA
Я понимаю, что когда epsilon равно 0, действия всегда выбираются на основе политики, полученной из Q. Поэтому Q-обучение сначала обновляет Q и выбирает следующее действие на основе обновленного Q. С другой стороны, SARSA выбирает следующее действие и после обновлений Q.
Как насчет того, когда ε равно 1? и ε увеличивается от 0 до 1?
Спасибо!
Хм .. это то же самое для обучения и сарса? – user3064688
Да, эта политика не зависит от алгоритма обучения. –
подведите итог, так что я могу сказать, что при ε = 0 он всегда будет выбирать эксплуатацию, которая базируется только на знаниях, которые мы имеем, но когда ε = 1, он случайным образом предпринимает действия между исследованием и использованием, чтобы узнать какой-либо лучший способ для запуска. – user3064688