2016-10-19 11 views
2

В sarsa λ с накопительными трассами соответствия (http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) данный алгоритм не соответствует формуле.Это ошибка в SARSA λ теме книги RL Sutton & Barto?

formula говорит Е ← ɣλE +-

где, как [алго] обновления с первым E ← E + 1, то Е ← ɣλE делая обновления эффективно
E ← ɣλ. (E + 1)

который является правильным? Я также видел научные статьи с той же формулой и алго.

Это несоответствие в публикации, которое они пропустили, поставив пару кронштейнов вокруг E + 1?
Если да, то как же большинство исследовательских работ воспроизводило ту же ошибку.

OR
Если я что-то неправильно понял, укажите, пожалуйста.

ответ

0

Я думаю, что они не пропустили ни одной скобки, это E ← ɣλE + 1. Поскольку E должен уменьшаться на ɣλ каждый раз, если только s не является текущим. поэтому 1 относится к текущим s. Здесь есть цифра http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.html, которая может помочь вам лучше понять эту идею, она находится между Equ (7.5) и (7.6).

+1

Я видел эту фигуру, моя точка находится в algo, почему обновление с E ← ɣλE + ɣλ – jaggi

+0

вместо E ← ɣλE + 1 (для текущего состояния s). Рисунок 7.11 [http: //webdocs.cs.ualberta .ca/~ sutton/book/ebook/node77.html] (здесь) говорит для всех состояний do E ← ɣλE, который включает в себя текущее состояние, трассировка на получение которого была увеличена на 1 непосредственно перед тем, что «распад» для цикла – jaggi

+0

Я cann ' Понимаю вашу мысль. Вы видели Equ (7.13), вы могли бы это понять? Если бы вы могли, то на рисунке 7.11 строка 8 и строка 11 выполняют то, что говорит уравнение (7.13). Возможно, ваша точка, для текущих s, a, e (s, a) была обновлена ​​как строкой 8, так и строкой 11, в результате она обновляется с помощью E ← ɣλE + ɣλ не E ← ɣλE + 1. Боже, я думал, что понял это, теперь я тоже чувствую смущение, как ты. – user186199