Я в курсе «Интеллектуальные машины» в университете. Мы познакомились с тремя методами усиленного обучения, а также с теми, которым нам дали интуицию, когда их использовать, и я цитирую:Q learning vs Temporal Difference vs Модифицированное обучение на основе моделей
- Q-Learning - Лучшее, когда MDP не может быть разрешен.
- Временное различие Обучение - лучше всего, когда MDP известен или может быть изучен, но не может быть разрешен.
- Model-Based - лучше всего, когда MDP невозможно узнать.
Я попросил пример, чтобы использовать TDL над QL и так далее, и лектор не смог его найти.
Так есть ли хорошие примеры, чтобы выбрать один метод над другим? Благодарю.
Q-learning - это алгоритм временной разности. –
Разве Q-Learning не используется для вычисления Q-значения, в то время как временное различие Learning используется для вычисления функции Value? [Они связаны, но не совсем то же, что я думаю] Или я ошибаюсь? – StationaryTraveller
V - это функция значения состояния, Q - функция значения действия, а Q-обучение - это определенный внеполитический алгоритм обучения с временной разницей. Вы можете узнать Q или V, используя различные методы TD или не TD, оба из которых могут быть основаны на модели или нет. –