Пожалуйста, посмотрите на картинку ниже:Q Изучение Techniuqe для не входящих в пожарах
Моя цель состоит в том, что агент вращения и перемещения в окружающей среде и не падают в огненных отверстия, я думаю так:
Do for 1000 episodes:
An Episode :
start to traverse the environment;
if falls into a hole , back to first place !
Так что я прочитал некоторые где: цель является конечной точкой для эпизода, Так что, если мы считаем, что цель состоит в том, чтобы не попасть в пожарах, противоположных целей (т.е. положить в огненном отверстии) будет конечной точкой эпизода. что вы предложите для постановки целей?
Другой вопрос: зачем мне устанавливать матрицу вознаграждения? Я читал, что Q Learning - это модель бесплатно! Я знаю, что в Q Learning мы поставим цель, а не способ ее достижения. (в отличие от контролируемого обучения.)
без комментариев? –
Mornington Crescent! –
Как это соотносится с [тегом: C++] на самом деле? Вы даже читали информацию о теге, когда этот тег можно/следует применять? Если вы задаете вопрос о конкретной (C++) проблеме программирования, укажите [mcve] вашего кода, пожалуйста. –