Я изучаю обучение по усилению, но я не понимаю, как подсчитывается значение Q. Если вы используете уравнение Беллмана Q(s,a) = r + γ*max(Q(s',a'))
, разве это не будет продолжаться вечно? Поскольку для Q(s',a')
потребуется значение Q одного временного значения, и это будет продолжаться и продолжаться. Как это кончается?В Q Learning, как вы можете получить значение Q? Разве Q (s, a) не будет продолжаться вечно?
ответ
В Reinforcement Learning вы обычно пытаетесь найти политику (лучшее действие для определенного состояния), а процесс обучения заканчивается, когда политика больше не изменяется или функция значения (представляющая ожидаемое вознаграждение) сходится.
Вы, кажется, путают Q-learning и Value Iteration using the Bellman equation. Q-обучение является безмодельной методикой, в которой вы используете полученную награду обновить Q:
Здесь прямое вознаграждение г т +- награды получена после совершения действия a t в состоянии с t. α - это скорость обучения, которая должна быть между 0 и 1, если это 0, обучение не выполняется, если это 1, учитывается только самая новая награда.
Value iteration с Bellman equation:
В случае, если модель Р (S, S ') требуется, также определяется как P (S' | с, а) , являющийся вероятностью перехода из государства s - s ' с использованием действия a. Для того, чтобы проверить, если значение функции сходится, как правило, значение функции V T + 1 сравнивается с В т для всех состояний, и если он меньше, чем небольшое значение (& эпсилон;) политика, как говорят, быть сходились:
Смотрите также: