разведка и эксплуатация в Q-обучении

В алгоритме Q-обучения выбор действия зависит от текущего состояния и значений Q-матрицы. Я хочу знать, обновляются ли эти значения Q только на этапе исследования или они также меняются на этапе эксплуатации.разведка и эксплуатация в Q-обучении

источник

2017-01-04 user22

Если вы читали Q-обучения код алгоритма, например, из Sutton & Barto book:

кажется довольно ясно, что Q-значения всегда обновляются, независимо друг от друга, если выбранное действие является разведочное или нет.

Обратите внимание, что строка «Выбрать от сек с помощью политики, полученной из Q (например, эпсилон-жадный)» означает, что действие несколько раз будут разведочными.

источник

2017-01-06 15:28:50

спасибо, сэр за этот ответ – user22

Добро пожаловать! Если ответ был полезен для вас, просто отметьте его как «Принятый ответ» (нажмите галочку (галочку) слева под стрелками для голосования.) Дополнительная информация здесь: http://meta.stackexchange.com/questions/23138/ как-принимать-ответ-на-стек-переполнение :-) –

разведка и эксплуатация в Q-обучении

ответ

Смежные вопросы