2015-09-28 13 views
3

Я смущен насчет разницы между пакетной и растущей партией q обучения. Кроме того, если у меня есть только исторические данные, могу ли я внедрить растущее периодическое обучение?Разница между партиями q обучения и растущей партии q обучения

Спасибо!

ответ

2

В пакетном Q-учете у вас есть только исторические данные, без возможности запрашивать новые данные по заданной политике. Напротив, при растущем групповом Q-обучении алгоритм почти равен, с той разницей, что в некоторых итерациях вы используете промежуточную политику для получения большего количества данных, тем самым увеличивая количество данных с новыми данными (включая разведку).

Итак, если у вас есть только исторические данные, невозможно собрать пакет с новыми данными. I.e, в вашем случае невозможно реализовать растущее групповое Q-обучение.

Подробное описание вы можете прочитать в главе 2 книги: Wiering, Marco, y Martijn van Otterlo, eds. Укрепление обучения: состояние дел. 2012.- изд. Springer, 2012. Link to the chapter

+0

Спасибо! Вы знаете, как я могу оценить производительность? Я предполагаю, что единственный способ - взять его онлайн и взаимодействовать с окружающей средой. – ChiefsCreation

+0

Да, это единственный способ, которым я знаю. Если у вас несколько состояний/действий и ** много ** данных, вы можете попробовать подход, подобный этому документу: http://arxiv.org/abs/1003.5956 Идея состоит в том, чтобы взять из полного набора данных только state/actions pais, которые соответствуют политике, которую вы узнали. Но, как я говорю, это возможно только в том случае, если у вас много данных и несколько пар состояний/действий. –

+0

Спасибо! Боюсь, у меня не так много данных. Кстати, возможно ли мне провести некоторую оценку политики с использованием методов Монте-Карло, как то, что упомянуто в этой статье: http://jmlr.csail.mit.edu/proceedings/papers/v9/fonteneau10a/fonteneau10a.pdf? Но я не думаю, что методы оценки политики работают в моем случае ... Поскольку я получаю свою политику из исторических данных, для меня не имеет смысла использовать одни и те же данные для оценки моей политики. Правильно? – ChiefsCreation