Я использую совместные положения с камеры Kinect в качестве своего состояния, но я думаю, что это будет слишком большим (25 суставов х 30 в секунду), чтобы просто входить в SARSA или Qlearning. Сейчас
В sarsa λ с накопительными трассами соответствия (http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) данный алгоритм не соответствует формуле. formula говорит Е ← ɣλE +- где, как [алго] обн
Поскольку я начинаю в этом поле, у меня возникает сомнение в том, что между тем, как различное значение epsilon повлияет на SARSA и Qlearning с помощью алгоритма epsilon greedy для выбора действия. Я