2015-11-09 8 views
-1

Пожалуйста, посмотрите на картинку ниже:Q Изучение Techniuqe для не входящих в пожарах

Моя цель состоит в том, что агент вращения и перемещения в окружающей среде и не падают в огненных отверстия, я думаю так:

enter image description here

Do for 1000 episodes: 
An Episode : 
start to traverse the environment; 
if falls into a hole , back to first place ! 

Так что я прочитал некоторые где: цель является конечной точкой для эпизода, Так что, если мы считаем, что цель состоит в том, чтобы не попасть в пожарах, противоположных целей (т.е. положить в огненном отверстии) будет конечной точкой эпизода. что вы предложите для постановки целей?

Другой вопрос: зачем мне устанавливать матрицу вознаграждения? Я читал, что Q Learning - это модель бесплатно! Я знаю, что в Q Learning мы поставим цель, а не способ ее достижения. (в отличие от контролируемого обучения.)

+0

без комментариев? –

+0

Mornington Crescent! –

+0

Как это соотносится с [тегом: C++] на самом деле? Вы даже читали информацию о теге, когда этот тег можно/следует применять? Если вы задаете вопрос о конкретной (C++) проблеме программирования, укажите [mcve] вашего кода, пожалуйста. –

ответ

1

Много исследований было направлено на награждение функций. Создание функции вознаграждения для создания желаемого поведения может быть неинтуитивным. Как прокомментировал Дон Реба, просто оставаясь неподвижным (пока вы не начинаете в состоянии пожара!), Это вполне разумный подход для предотвращения огня. Но это, вероятно, не то, что вы хотите.

Один из способов стимулирования активности (а не лагеря в определенном состоянии) заключается в том, чтобы наказать агента за каждый тайм-аут, испытываемый в состоянии без цели. В этом случае вы можете назначить -1 вознаграждение за каждый тайм-аут, потраченный в состоянии без цели, и нулевую награду за состояние цели.

Почему не цель +1? Вы можете запрограммировать решение, которое работает с наградой +1, но подумайте над этим: если состояние цели равно +1, тогда агент может компенсировать любое количество бедных, неоптимальных вариантов просто путем парковки в состоянии цели, пока вознаграждение не станет положительны.

Конечное состояние нуля заставляет агента находить самый быстрый путь к цели (что я предполагаю желательным). Единственный способ максимизировать вознаграждение (или минимизировать отрицательную награду) - это найти цель как можно быстрее.

И огонь? Назначьте вознаграждение в размере -100 (или -1 000 или -1 000 000 - что подходит вашим целям) для посадки в огне. Комбинация +0 для цели, -1 для целей без цели и -100 для огня должна обеспечивать функцию вознаграждения, которая дает требуемую политику управления.

Сноска: Google «отрицательные ограниченные процессы принятия решений в отношении Маркова» (MDP) »для получения дополнительной информации об этих функциях вознаграждения и политиках, которые они могут произвести.