Недавно я много читал о Q-обучении с Neural Networks и думал о обновлении существующей старой системы оптимизации в силовом котле, состоящем из простой кормовой установки, направленная нейронная сеть, аппроксимирующая выход многих сенсорных входов. Выход затем связан с линейным контроллером на основе модели, который каким-то образом выводит снова оптимальное действие, поэтому вся модель может сходиться к желаемой цели.Обновление старой системы Q-обучения с помощью Neural Networks
Идентификация линейных моделей является потребляющей задачей. Я подумал об обновлении всего этого для бесплатного Q-обучения с использованием нейронной сети Q-функции. Я нарисовал диаграмму, чтобы спросить вас, правильно ли я нахожусь на правильном пути или нет.
Мой вопрос: если вы думаете, что я хорошо понимал эту концепцию, следует мое обучение Набор состоит из State Features vectors
с одной стороны и Q_target - Q_current
(здесь я предполагаю, что есть большее вознаграждение), с тем, чтобы заставить целая модель к цели, или я что-то упускаю?
Примечание. На диаграмме показано сравнение между старой системой в верхней части и предлагаемым изменением в нижней части.
EDIT: Предоставляет ли Государственная нейронная сеть опыт повторного воспроизведения?