1

Я прочитал эту страницу standford - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html. Я не могу понять, как обучение TD используется в нейронных сетях. Я пытаюсь сделать шашки AI, которые будут использовать обучение TD, подобно тому, что они реализовали в нардах. Пожалуйста, объясните работу TD Back-Propagation.Временное различие Изучение и обратное распространение

Этот вопрос уже задан - Neural Network and Temporal Difference Learning Но я не могу понять принятый ответ. Если возможно, объясните, пожалуйста, другой подход.

ответ

3

Обучение TD не используется в нейронных сетях. Вместо этого нейронные сети используются в обучении TD для хранения значения (или q-value) функции.

Я думаю, что вы путаете backpropagation (концепция нейронных сетей) с самонастраиванием в RL. Для генерации новых оценок при загрузке используется комбинация последних данных и предыдущих оценок.

Когда пространство состояний велико и не так просто хранить функцию значения в таблицах, нейронные сети используются в качестве схемы аппроксимации для хранения функции значения.

Обсуждение передовых/обратных просмотров - это больше о трассировочных трассировках и т. Д. Случай, когда RL bootstraps serval продвигается вперед во времени. Однако это нецелесообразно, и есть способы (например, отслеживание соответствия) оставить след и обновить прошлые состояния.

Это не должно быть связано или перепутано с обратным распространением в нейронных сетях. Это не имеет никакого отношения к этому.

 Смежные вопросы

  • Нет связанных вопросов^_^