Я реализовал Q обучения по сетке размера (n x n) с единственной наградой в 100 посередине. Агент узнает за 1000 эпох, чтобы достичь цели следующим агентством: он выбирает с вероятностью 0,8 ход с наивысшим значением действия состояния и выбирает случайный ход на 0,2. После перемещения значение действия состояния обновляется с помощью правила обучения Q.Изучение Q: Повторное обучение после изменения окружения
Теперь я сделал следующий эксперимент: все поля рядом с целью получили награду -100, за исключением соседнего внизу. После обучения в течение 1000 эпох агент явно избегает идти по верхнему пути и чаще всего достигает цели со дна.
После обучения установите награду нижнего соседа на -100 и верхний сосед обратно на 0 и снова начните обучение за 1000 эпох, придерживаясь карты значений состояния. Это на самом деле ужасно! Агент должен очень долго находить цель (на сетке 9x9 до 3 минут). После проверки путей, которые я видел, агент много времени перескакивает между двумя состояниями, такими как (0,0) -> (1,0) -> (0,0) -> (1,0) ...
Мне трудно представить, имеет ли это значение какой-либо смысл. Кто-то испытывает такую ситуацию?