Q learning vs Temporal Difference vs Модифицированное обучение на основе моделей

Я в курсе «Интеллектуальные машины» в университете. Мы познакомились с тремя методами усиленного обучения, а также с теми, которым нам дали интуицию, когда их использовать, и я цитирую:Q learning vs Temporal Difference vs Модифицированное обучение на основе моделей

Q-Learning - Лучшее, когда MDP не может быть разрешен.
Временное различие Обучение - лучше всего, когда MDP известен или может быть изучен, но не может быть разрешен.
Model-Based - лучше всего, когда MDP невозможно узнать.

Я попросил пример, чтобы использовать TDL над QL и так далее, и лектор не смог его найти.

Так есть ли хорошие примеры, чтобы выбрать один метод над другим? Благодарю.

источник

2015-12-09 StationaryTraveller

Q-learning - это алгоритм временной разности. –

Разве Q-Learning не используется для вычисления Q-значения, в то время как временное различие Learning используется для вычисления функции Value? [Они связаны, но не совсем то же, что я думаю] Или я ошибаюсь? – StationaryTraveller

V - это функция значения состояния, Q - функция значения действия, а Q-обучение - это определенный внеполитический алгоритм обучения с временной разницей. Вы можете узнать Q или V, используя различные методы TD или не TD, оба из которых могут быть основаны на модели или нет. –

Временная разница является an approach to learning how to predict a quantity that depends on future values of a given signal. Его можно использовать для изучения как V-функции, так и Q-функции, тогда как Q-learning - это специфический TD-алгоритм, используемый для изучения Q-функции. Как указано в @StationaryTraveller, вам нужна Q-функция для выполнения действия (например, следуя политике эпсилон-жадность). Если у вас есть только V-функция, вы все равно можете получить Q-функцию, выполнив итерацию по всем возможным следующим состояниям и выбрав действие, которое приведет вас к состоянию с самым высоким значением V. Для примеров и более подробностей я рекомендую classic book from Sutton and Barto (this - это новая версия - в версии прогресса).

В безмодельный RL не научится функция перехода состояний (Типовой) и полагаться только на образцах. Однако вам может быть интересно также изучить его, например, потому что вы не можете собрать много образцов и хотите сгенерировать некоторые виртуальные. В этом случае мы говорим о модели RL. Модельная RL довольно распространена в робототехнике, где вы не можете выполнять много реальных симуляций или робот будет ломаться. This - хороший обзор со многими примерами (но он говорит только о алгоритмах поиска политик). Для получения еще одного примера см. this paper. Здесь авторы изучают - наряду с политикой - гауссовским процессом - аппроксимировать форвардную модель робота, чтобы имитировать траектории и уменьшить число реальных взаимодействий роботов.

источник

2015-12-14 09:20:37 Simon

Q learning vs Temporal Difference vs Модифицированное обучение на основе моделей

ответ

Смежные вопросы