В алгоритме Q-обучения выбор действия зависит от текущего состояния и значений Q-матрицы. Я хочу знать, обновляются ли эти значения Q только на этапе исследования или они также меняются на этапе эксплуатации.разведка и эксплуатация в Q-обучении
0
A
ответ
1
Если вы читали Q-обучения код алгоритма, например, из Sutton & Barto book:
кажется довольно ясно, что Q-значения всегда обновляются, независимо друг от друга, если выбранное действие является разведочное или нет.
Обратите внимание, что строка «Выбрать от сек с помощью политики, полученной из Q (например, эпсилон-жадный)» означает, что действие несколько раз будут разведочными.
спасибо, сэр за этот ответ – user22
Добро пожаловать! Если ответ был полезен для вас, просто отметьте его как «Принятый ответ» (нажмите галочку (галочку) слева под стрелками для голосования.) Дополнительная информация здесь: http://meta.stackexchange.com/questions/23138/ как-принимать-ответ-на-стек-переполнение :-) –