Я хотел бы получить несколько полезных инструкций о том, как использовать алгоритм Q-обучения с приближением функции. Для базового алгоритма Q-обучения я нашел примеры, и я думаю, что понял это. В случае использования аппроксимации функции я попадаю в беду. Может ли кто-нибудь дать мне объяснение на краткий пример, как это работает?Q-обучение с приближением линейной функции
То, что я знаю:
- Istead использования матрицы для Q-значений, которые мы используем функции и параметры.
- Сделать приближение линейной комбинацией параметров и параметров.
- Обновление параметров.
Я проверил эту статью: Q-learning with function approximation
Но я не могу найти какой-либо полезный учебник, как использовать его.
Спасибо за помощь!