reinforcement-learning

0зной

1ответ

Проблемы в обучении арматуре: ошибка, настройка параметров и период обучения

В настоящее время я тренирую учебный агент по укреплению, используя простую нейронную сеть со 100 скрытыми элементами для решения игры 2048 года. Я использую алгоритм обучения усилению DQN (т. Е. Q-об

0зной

1ответ

Как повысить производительность сети с прямыми линиями в качестве аппроксиматора функции q-value?

Я пытаюсь перемещаться по агенту в домене nwn gridworld, используя Q-Learning +, прямую нейронную сеть как аппроксиматор q-функции. В основном агент должен найти лучший/самый короткий путь для достиже

11зной

1ответ

Обучение в области углубленного обучения или обучения в арсенале

В чем разница между deep Укрепление обучения и усиления обучения? Я в основном знаю, что такое обучение усилению, но что конкретно обозначает термин deep? Большое спасибо за помощь.

3зной

3ответ

Усиление обучения и динамическое программирование

Усиление обучения (Q-learning) с использованием таблицы поиска (вместо приближения к функциям) равно EQUAL для динамического программирования?

1зной

1ответ

Q-learning с аппроксимацией функции, где каждое состояние не имеет одинакового набора действий.

Я применяю Q-обучение с приближением функции к проблеме, когда каждое состояние не имеет одного и того же набора действий. Там, когда я вычисления целевого Задача = R (s, a, s) + (max_a '* Q (S', а'))

0зной

1ответ

может помочь учебному агенту по обучению разделить дискретное распределение

В сетке, если я начну предпринимать действия после первоначальной политики как дискретное распределение среди доступных действий. скажем, у меня в каждом штате четыре действия (север, юг, восток, запа

0зной

1ответ

Выполняет ли предварительная обработка при глубоком Q/усилении обучения?

Я читал на глубоком подкреплении, например, как здесь: https://www.nervanasys.com/demystifying-deep-reinforcement-learning/ Это будет некоторое время, прежде чем я все понимаю математику, но это не ме