Я пытаюсь написать адаптивный контроллер для системы управления, а именно систему управления питанием с использованием Q-обучения. Недавно я реализовал игрушку RL для системы тележки и разработал постановку проблемы управления вертолетом из заметок Андрея Н.Г. Я ценю, как в таких ситуациях обязательно необходимо приближение функции значений. Однако оба этих популярных примера имеют очень небольшое количество возможных дискретных действий. У меня есть три вопроса:Укрепление обучения: дилемма выбора шагов дискретизации и показателей производительности для непрерывного действия и непрерывного пространства состояний
1) Каков правильный способ решения таких проблем, если у вас нет небольшого числа дискретных действий? Размерность моих действий и состояний, похоже, взорвана, и обучение выглядит очень бедно, что подводит меня к следующему вопросу.
2) Как измерить эффективность моего агента? Поскольку вознаграждение изменяется вместе с динамической средой, на каждом временном шаге я не могу определить показатели производительности для моего непрерывного агента RL. Кроме того, в отличие от проблем gridworld, я не могу проверить таблицу Q-value из-за огромных пар действий состояния, как я узнаю, что мои действия оптимальны?
3) Поскольку у меня есть модель для эволюции состояний во времени. States = [Y, U]. Y [t + 1] = aY [t] + bA, где A - действие. Выбор шага дискретизации для действий A также повлияет на то, как мелко я должен дискретировать переменную состояния Y. Как выбрать шаги дискретизации? Спасибо большое!