В sarsa λ с накопительными трассами соответствия (http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) данный алгоритм не соответствует формуле.Это ошибка в SARSA λ теме книги RL Sutton & Barto?
formula говорит Е ← ɣλE +-
где, как [алго] обновления с первым E ← E + 1, то Е ← ɣλE делая обновления эффективно
E ← ɣλ. (E + 1)
который является правильным? Я также видел научные статьи с той же формулой и алго.
Это несоответствие в публикации, которое они пропустили, поставив пару кронштейнов вокруг E + 1?
Если да, то как же большинство исследовательских работ воспроизводило ту же ошибку.
OR
Если я что-то неправильно понял, укажите, пожалуйста.
Я видел эту фигуру, моя точка находится в algo, почему обновление с E ← ɣλE + ɣλ – jaggi
вместо E ← ɣλE + 1 (для текущего состояния s). Рисунок 7.11 [http: //webdocs.cs.ualberta .ca/~ sutton/book/ebook/node77.html] (здесь) говорит для всех состояний do E ← ɣλE, который включает в себя текущее состояние, трассировка на получение которого была увеличена на 1 непосредственно перед тем, что «распад» для цикла – jaggi
Я cann ' Понимаю вашу мысль. Вы видели Equ (7.13), вы могли бы это понять? Если бы вы могли, то на рисунке 7.11 строка 8 и строка 11 выполняют то, что говорит уравнение (7.13). Возможно, ваша точка, для текущих s, a, e (s, a) была обновлена как строкой 8, так и строкой 11, в результате она обновляется с помощью E ← ɣλE + ɣλ не E ← ɣλE + 1. Боже, я думал, что понял это, теперь я тоже чувствую смущение, как ты. – user186199