Я прочитал эту страницу standford - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html. Я не могу понять, как обучение TD используется в нейронных сетях. Я пытаюсь сделать шашки AI, которые будут использовать обучение TD, подобно тому, что они реализовали в нардах. Пожалуйста, объясните работу TD Back-Propagation.Временное различие Изучение и обратное распространение
Этот вопрос уже задан - Neural Network and Temporal Difference Learning Но я не могу понять принятый ответ. Если возможно, объясните, пожалуйста, другой подход.