0

Я хотел бы получить несколько полезных инструкций о том, как использовать алгоритм Q-обучения с приближением функции. Для базового алгоритма Q-обучения я нашел примеры, и я думаю, что понял это. В случае использования аппроксимации функции я попадаю в беду. Может ли кто-нибудь дать мне объяснение на краткий пример, как это работает?Q-обучение с приближением линейной функции

То, что я знаю:

  1. Istead использования матрицы для Q-значений, которые мы используем функции и параметры.
  2. Сделать приближение линейной комбинацией параметров и параметров.
  3. Обновление параметров.

Я проверил эту статью: Q-learning with function approximation

Но я не могу найти какой-либо полезный учебник, как использовать его.

Спасибо за помощь!

ответ

2

С моей точки зрения, this является одной из лучших ссылок для начала. Он хорошо написан с несколькими примерами псевдокода. В вашем случае вы можете упростить алгоритмы, игнорируя следы соответствия.

Кроме того, по моему опыту и в зависимости от вашего варианта использования, Q-Learning может работать не очень хорошо (иногда для этого требуется огромное количество данных опыта). Например, вы можете попробовать значение Fitted-Q, которое является пакетным алгоритмом.