Есть несколько действительных ответов на ваш вопрос. С теоретической точки зрения, для достижения конвергенции, Q-обучение требует, чтобы все пары состояния-действия (асимптотически) посещались бесконечно часто.
Предыдущее условие может быть достигнуто разными способами. На мой взгляд, чаще всего интерпретировать n
просто как количество шагов времени, то есть, сколько взаимодействий, выполненных агентом с окружающей средой [например, Busoniu, 2010, Chapter 2].
Тем не менее, в некоторых случаях скорость разведки может быть различной для каждого состояния, и, следовательно, n
есть число раз агент посетил состояние s
[например, Powell, 2011, chapter 12].
Обе интерпретации одинаково верны и обеспечивают (вместе другие условия) асимптотическую сходимость Q-обучения. Когда лучше использовать какой-то подход, зависит от вашей конкретной проблемы, аналогично точной величине E
, которую вы должны использовать.