Q-обучение с приближением линейной функции

Я хотел бы получить несколько полезных инструкций о том, как использовать алгоритм Q-обучения с приближением функции. Для базового алгоритма Q-обучения я нашел примеры, и я думаю, что понял это. В случае использования аппроксимации функции я попадаю в беду. Может ли кто-нибудь дать мне объяснение на краткий пример, как это работает?Q-обучение с приближением линейной функции

То, что я знаю:

Istead использования матрицы для Q-значений, которые мы используем функции и параметры.
Сделать приближение линейной комбинацией параметров и параметров.
Обновление параметров.

Я проверил эту статью: Q-learning with function approximation

Но я не могу найти какой-либо полезный учебник, как использовать его.

Спасибо за помощь!

источник

2016-03-22 Genesist

С моей точки зрения, this является одной из лучших ссылок для начала. Он хорошо написан с несколькими примерами псевдокода. В вашем случае вы можете упростить алгоритмы, игнорируя следы соответствия.

Кроме того, по моему опыту и в зависимости от вашего варианта использования, Q-Learning может работать не очень хорошо (иногда для этого требуется огромное количество данных опыта). Например, вы можете попробовать значение Fitted-Q, которое является пакетным алгоритмом.

источник

2016-04-08 12:26:27

Q-обучение с приближением линейной функции

ответ

Смежные вопросы