1

Я хочу реализовать ε-жадную политику выбора политики в Q-learning. Здесь многие люди использовали, уравнение для уменьшения скорости разведки,ε-жадная политика с уменьшающейся скоростью исследования

ɛ = е^(- En)

п = возраст агента

E = эксплуатация параметр

Но Я не понимаю, что означает это «n»? заключается в том, что количество посещений определенной пары действий состояния OR равно количеству итераций?

Большое спасибо

ответ

1

Есть несколько действительных ответов на ваш вопрос. С теоретической точки зрения, для достижения конвергенции, Q-обучение требует, чтобы все пары состояния-действия (асимптотически) посещались бесконечно часто.

Предыдущее условие может быть достигнуто разными способами. На мой взгляд, чаще всего интерпретировать n просто как количество шагов времени, то есть, сколько взаимодействий, выполненных агентом с окружающей средой [например, Busoniu, 2010, Chapter 2].

Тем не менее, в некоторых случаях скорость разведки может быть различной для каждого состояния, и, следовательно, n есть число раз агент посетил состояние s [например, Powell, 2011, chapter 12].

Обе интерпретации одинаково верны и обеспечивают (вместе другие условия) асимптотическую сходимость Q-обучения. Когда лучше использовать какой-то подход, зависит от вашей конкретной проблемы, аналогично точной величине E, которую вы должны использовать.