Я пишу программу простого мира сетки д-обучение с использованием R. Это мой мир сетки Этот простой мир сетки имеет 6 состояний, в которых состояние 1 и состояние 6 являются начальным и конечным состоя
Я пытаюсь реализовать алгоритм для нард, аналогичный td-gammon, как описано here. Как описано в документе, в первоначальной версии td-gammon использовалось только кодирование исходной платы в простран
Я работаю в программе обучения подкреплению, и я использую эту статью как reference. Я использую Python с keras (Theano) для создания нейронной сети и псевдокод я использую для этой программы Do a fee