2017-01-04 19 views
0

В алгоритме Q-обучения выбор действия зависит от текущего состояния и значений Q-матрицы. Я хочу знать, обновляются ли эти значения Q только на этапе исследования или они также меняются на этапе эксплуатации.разведка и эксплуатация в Q-обучении

ответ

1

Если вы читали Q-обучения код алгоритма, например, из Sutton & Barto book: enter image description here

кажется довольно ясно, что Q-значения всегда обновляются, независимо друг от друга, если выбранное действие является разведочное или нет.

Обратите внимание, что строка «Выбрать от сек с помощью политики, полученной из Q (например, эпсилон-жадный)» означает, что действие несколько раз будут разведочными.

+0

спасибо, сэр за этот ответ – user22

+0

Добро пожаловать! Если ответ был полезен для вас, просто отметьте его как «Принятый ответ» (нажмите галочку (галочку) слева под стрелками для голосования.) Дополнительная информация здесь: http://meta.stackexchange.com/questions/23138/ как-принимать-ответ-на-стек-переполнение :-) –