итерации и награды в q-learning

Доброе утро, В Q-learning агенты предпринимают действия, пока не достигнут своей цели. Алгоритм выполняется много раз до получения конвергенции. Например, целью является получение максимальной пропускной способности до окончания моделирования времени. Время моделирования делится на n равных периодов T, и вознаграждение изменяется со временем. Таким образом, агенты обновляют свои состояния n раз в начале каждого периода. В этом случае n считается числом шагов или итераций? Кроме того, обновление Q-значения выполняется после выполнения выбранного действия или перед исполнением (с использованием функции вознаграждения, которая является приблизительной реальной наградой)? Буду благодарен, если вы ответите на мои вопросы.итерации и награды в q-learning

источник

2016-12-01 student26

Во-первых, вы должны знать, что в обучении подкрепления существуют два вида задач, в которых взаимодействие агента и окружающей среды естественным образом разбивается на последовательность отдельных эпизодов (эпизодические задачи), а одно, в котором оно отсутствует (например, продолжающиеся задачи) [Sutton book ref.].

Целью агента является максимизация общей суммы вознаграждения, получаемого им (в симуляции или в реальной среде). Это означает максимизацию немедленного вознаграждения, но кумулятивное вознаграждение в долгосрочной перспективе .

В случае эпизодической задачи каждый эпизод часто имеет различную продолжительность (например, если каждый эпизод является шахматной игрой, каждая игра обычно заканчивается в другом количестве движений).

Функция вознаграждения не изменяется, но вознаграждение, полученное агентом, изменяется в зависимости от действий, которые оно принимает. В алгоритме Q-обучения агент обновляет Q-функцию после каждого шага (не в начале каждого периода/эпизода).

В соответствии с вашим определением n считается числом шагов за эпизод (которые могут отличаться от одного эпизода к другому, как указано ранее). Общее количество шагов - это сумма n по всем эпизодам. Термин «итерации», возможно, относится к числу эпизодов в некоторых документах/книгах, поэтому необходимо знать контекст.

Обновление Q-функции выполняется после выполнения выбранного действия. Обратите внимание, что агент должен выполнить текущее действие для наблюдения за наградой и следующим состоянием.

Функция вознаграждения не является приблизительным значением реальной награды. Не существует настоящей награды. Функция вознаграждения разработана пользователем, чтобы «рассказать» агенту, какова цель. Подробнее об этой теме снова в книге Саттона и Барто: Section 3.2 Goals and Rewards.

источник

2016-12-02 08:47:53

Добрый вечер, большое вам спасибо за ваше объяснение. Я думаю, что в моем случае это не подходящий способ моделирования проблемы с эпизодическими задачами (потому что целью является получение максимальной пропускной способности во время моделирования). Таким образом, формулировка с непрерывными задачами более подходит. В этом случае, как агенты выполняют действия и возможно ли достичь конвергенции, когда все агенты не заинтересованы в изменении своих состояний? – student26

Почему агент не заинтересован в изменении своей функции ценности? Вы должны определить вознаграждение, которое отражает цель агента. Например, если ваша задача состоит в том, чтобы управлять отопительной системой (потенциально непрерывной задачей), возможно, агент получает отрицательное вознаграждение пропорционально потреблению, так что агент пытается минимизировать потребление. –

@ student26, пожалуйста, дайте мне знать, если я ответил на ваш первоначальный вопрос и, если необходимо, не стесняйтесь открыть новый вопрос о реализации Q-обучения. Спасибо. –

ответ

Смежные вопросы