В Q Learning, как вы можете получить значение Q? Разве Q (s, a) не будет продолжаться вечно?

Я изучаю обучение по усилению, но я не понимаю, как подсчитывается значение Q. Если вы используете уравнение Беллмана Q(s,a) = r + γ*max(Q(s',a')), разве это не будет продолжаться вечно? Поскольку для Q(s',a') потребуется значение Q одного временного значения, и это будет продолжаться и продолжаться. Как это кончается?В Q Learning, как вы можете получить значение Q? Разве Q (s, a) не будет продолжаться вечно?

источник

2016-12-03 traw1234

В Reinforcement Learning вы обычно пытаетесь найти политику (лучшее действие для определенного состояния), а процесс обучения заканчивается, когда политика больше не изменяется или функция значения (представляющая ожидаемое вознаграждение) сходится.

Вы, кажется, путают Q-learning и Value Iteration using the Bellman equation. Q-обучение является безмодельной методикой, в которой вы используете полученную награду обновить Q:

Здесь прямое вознаграждение г _{т +-} награды получена после совершения действия a _t в состоянии с _t. α - это скорость обучения, которая должна быть между 0 и 1, если это 0, обучение не выполняется, если это 1, учитывается только самая новая награда.

Value iteration с Bellman equation:

В случае, если модель Р (S, S ') требуется, также определяется как P (S' | с, а) , являющийся вероятностью перехода из государства s - s ' с использованием действия a. Для того, чтобы проверить, если значение функции сходится, как правило, значение функции V _{T + 1} сравнивается с В _т для всех состояний, и если он меньше, чем небольшое значение (& эпсилон;) политика, как говорят, быть сходились:

Смотрите также:

источник

2016-12-04 20:20:42 agold

В Q Learning, как вы можете получить значение Q? Разве Q (s, a) не будет продолжаться вечно?

ответ

Смежные вопросы