reinforcement-learning

2зной

1ответ

Как я могу справиться с проблемой рандомизации в сетях состояний Echo?

Я использую сети состояний эха (ESN) в качестве Q-функции в задаче обучения арфингам. Мне удалось достичь высокой точности, в среднем на 90%, на тестовой фазе с определенной топологией резервуара (спе

1зной

1ответ

Укрепление обучения-ТД обучения от последействия

Я делаю программу, которая учит 2 игроков играть в обычную настольную игру, используя Укрепление обучения и метод обучения временным различиям (TD (λ)) на основе последействия. Обучение происходит пут

4зной

1ответ

Обобщение политики для алгоритма обучения арматурного моделирования на основе модели с большими состояниями и пространствами действия

Я использую подход к обучению подкрепления с использованием одного элемента для автономного полета. В этом проекте я использовал симулятор для сбора данных обучения (состояние, действие, конечное сост

2зной

1ответ

Внедрение Q-learning

Я пытаюсь реализовать Q-обучение в среде, где R (награды) являются стохастичскими зависящими от времени переменными, и они поступают в реальном времени через const deltaT. Состояния S (скаляры) также