reinforcement-learning

1зной

1ответ

Programmaticaly найти следующее состояние для макс (Q (S', а ')) в Q-обучение с использованием R

Я пишу программу простого мира сетки д-обучение с использованием R. Это мой мир сетки Этот простой мир сетки имеет 6 состояний, в которых состояние 1 и состояние 6 являются начальным и конечным состоя

0зной

1ответ

Как эффективно вычислять экспозицию пятен в нардах

Я пытаюсь реализовать алгоритм для нард, аналогичный td-gammon, как описано here. Как описано в документе, в первоначальной версии td-gammon использовалось только кодирование исходной платы в простран

5зной

1ответ

Как обновить весы в керах для обучения усилению?

Я работаю в программе обучения подкреплению, и я использую эту статью как reference. Я использую Python с keras (Theano) для создания нейронной сети и псевдокод я использую для этой программы Do a fee