2016-12-03 20 views
0

Я изучаю обучение по усилению, но я не понимаю, как подсчитывается значение Q. Если вы используете уравнение Беллмана Q(s,a) = r + γ*max(Q(s',a')), разве это не будет продолжаться вечно? Поскольку для Q(s',a') потребуется значение Q одного временного значения, и это будет продолжаться и продолжаться. Как это кончается?В Q Learning, как вы можете получить значение Q? Разве Q (s, a) не будет продолжаться вечно?

ответ

1

В Reinforcement Learning вы обычно пытаетесь найти политику (лучшее действие для определенного состояния), а процесс обучения заканчивается, когда политика больше не изменяется или функция значения (представляющая ожидаемое вознаграждение) сходится.


Вы, кажется, путают Q-learning и Value Iteration using the Bellman equation. Q-обучение является безмодельной методикой, в которой вы используете полученную награду обновить Q:

Q formula

Здесь прямое вознаграждение г т +- награды получена после совершения действия a t в состоянии с t. α - это скорость обучения, которая должна быть между 0 и 1, если это 0, обучение не выполняется, если это 1, учитывается только самая новая награда.

Value iteration с Bellman equation:

bellman

В случае, если модель Р (S, S ') требуется, также определяется как P (S' | с, а) , являющийся вероятностью перехода из государства s - s ' с использованием действия a. Для того, чтобы проверить, если значение функции сходится, как правило, значение функции V T + 1 сравнивается с В т для всех состояний, и если он меньше, чем небольшое значение (& эпсилон;) политика, как говорят, быть сходились:

converged


Смотрите также: