7

Недавно я много читал о Q-обучении с Neural Networks и думал о обновлении существующей старой системы оптимизации в силовом котле, состоящем из простой кормовой установки, направленная нейронная сеть, аппроксимирующая выход многих сенсорных входов. Выход затем связан с линейным контроллером на основе модели, который каким-то образом выводит снова оптимальное действие, поэтому вся модель может сходиться к желаемой цели.Обновление старой системы Q-обучения с помощью Neural Networks

Идентификация линейных моделей является потребляющей задачей. Я подумал об обновлении всего этого для бесплатного Q-обучения с использованием нейронной сети Q-функции. Я нарисовал диаграмму, чтобы спросить вас, правильно ли я нахожусь на правильном пути или нет.

model

Мой вопрос: если вы думаете, что я хорошо понимал эту концепцию, следует мое обучение Набор состоит из State Features vectors с одной стороны и Q_target - Q_current (здесь я предполагаю, что есть большее вознаграждение), с тем, чтобы заставить целая модель к цели, или я что-то упускаю?

Примечание. На диаграмме показано сравнение между старой системой в верхней части и предлагаемым изменением в нижней части.

EDIT: Предоставляет ли Государственная нейронная сеть опыт повторного воспроизведения?

ответ

1

Возможно, вы используете только все значения Q всех действий в текущем состоянии в качестве уровня вывода в вашей сети. Плохая диаграмма here

Таким образом, вы можете использовать способность NN выводить сразу несколько значений Q за раз. Затем просто возвращайте опору, используя потери, полученные Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a), где max(Q(s', a')) можно легко вычислить из выходного уровня.

Пожалуйста, дайте мне знать, если у вас есть дополнительные вопросы.