В пакетном Q-учете у вас есть только исторические данные, без возможности запрашивать новые данные по заданной политике. Напротив, при растущем групповом Q-обучении алгоритм почти равен, с той разницей, что в некоторых итерациях вы используете промежуточную политику для получения большего количества данных, тем самым увеличивая количество данных с новыми данными (включая разведку).
Итак, если у вас есть только исторические данные, невозможно собрать пакет с новыми данными. I.e, в вашем случае невозможно реализовать растущее групповое Q-обучение.
Подробное описание вы можете прочитать в главе 2 книги: Wiering, Marco, y Martijn van Otterlo, eds. Укрепление обучения: состояние дел. 2012.- изд. Springer, 2012. Link to the chapter
Спасибо! Вы знаете, как я могу оценить производительность? Я предполагаю, что единственный способ - взять его онлайн и взаимодействовать с окружающей средой. – ChiefsCreation
Да, это единственный способ, которым я знаю. Если у вас несколько состояний/действий и ** много ** данных, вы можете попробовать подход, подобный этому документу: http://arxiv.org/abs/1003.5956 Идея состоит в том, чтобы взять из полного набора данных только state/actions pais, которые соответствуют политике, которую вы узнали. Но, как я говорю, это возможно только в том случае, если у вас много данных и несколько пар состояний/действий. –
Спасибо! Боюсь, у меня не так много данных. Кстати, возможно ли мне провести некоторую оценку политики с использованием методов Монте-Карло, как то, что упомянуто в этой статье: http://jmlr.csail.mit.edu/proceedings/papers/v9/fonteneau10a/fonteneau10a.pdf? Но я не думаю, что методы оценки политики работают в моем случае ... Поскольку я получаю свою политику из исторических данных, для меня не имеет смысла использовать одни и те же данные для оценки моей политики. Правильно? – ChiefsCreation