Deep Q-Learning = Q-Learning, где базовая оценка представляет собой глубокую нейронную сеть (вместо линейных функций или таблиц). Базовая-оценка используется как память Q-функции (которая сопоставляет пару действия состояния с некоторым значением; в большинстве приложений таблицы становятся слишком большими). Поскольку нейронные сети являются общими функциями-аппроксиматорами (при достаточной сложности Сети), их можно использовать в качестве приближения Q-функции. Итак, эти глубокие нейронные сети просто действуют как инструмент/компонент внутри Q-Learning. Это зависит от приложения, если вы используете Non-Deep или Deep-Networks (для их классификации также нет правильного правила).
Поскольку Q-Learning - это одна из форм обучения усилению, можно также описать ее как Обучение глубокому усилению, но DRL также может описывать другие подходы (используя Deep Neural Networks, но не Q-Learning).
Известный и современный документ с описанием использования Deep Q-Learning является:
Mnih, Владимира и др. «Игра в атари с глубоким обучением подкреплением». arXiv preprint arXiv: 1312.5602 (2013).
Пожалуйста, ознакомьтесь с тем, что представляет собой «хорошие» вопросы по SOF. – javadba
Я сделал Это говорит о теме, будьте конкретны, придайте ей значение другим Тема: глубокое q-learning Специфическое: Я упомянул о том, что хочу узнать о глубоком q-обучении Релевантно для других: кто-нибудь еще, кто знает, что нейронные сети и хотят узнать, что глубокое q-learning хочет знать то же самое. так что случилось с моим вопросом? – Soham
Я проголосовал за то, чтобы он был «Off Topic» из-за «Вопросов, требующих, чтобы мы рекомендовали или находили книгу, инструмент, библиотеку программного обеспечения, учебное пособие или другие ресурсы за пределами сайта, вне темы для переполнения стека, поскольку они, как правило, привлекают упрямые ответы и спам. Вместо этого опишите проблему и то, что было сделано до сих пор, чтобы ее решить ». В вашем случае это подразумевает учебник по q-обучению. Кстати, я не спускал вниз - в первую очередь потому, что ур просто начал работать здесь. Но это может быть оправдано. – javadba