Q-learning с аппроксимацией функции, где каждое состояние не имеет одинакового набора действий.

Я применяю Q-обучение с приближением функции к проблеме, когда каждое состояние не имеет одного и того же набора действий. Там, когда я вычисления целевогоQ-learning с аппроксимацией функции, где каждое состояние не имеет одинакового набора действий.

Задача = R (s, a, s) + (max_a '* Q (S', а'))

Поскольку каждое состояние не имеет такой же набор действий, так должен ли я включать множество действий также в мое определение состояния ?. в противном случае то, что происходит, состоит в том, что два состояния могут быть очень похожи друг на друга во всех других функциях, кроме того факта, что у них есть очень другой набор действий, доступных оттуда. Даже если я включаю множество действий, тогда проблема - это длина вектора, потому что каждое состояние имеет различное количество действий. пожалуйста помогите.

источник

2016-08-24 Prabir

Мое предложение было бы выразить действия как взвешенные суммы функций.

Например, если вы используете нейронную сеть, ваш уровень ввода будет состоять из состояний, а ваш выходной уровень будет функционировать. Вы можете вычислить Q (s, a) как сумму (NN (s) _i * a_i), где NN (s) _i - значение i-го выходного нейрона нейронной сети, заданного входом s, а a_i - вес, функция i действием a.

Это также можно интерпретировать как имеющее единую нейронную сеть, которая имеет предопределенные веса на последнем уровне, который отличается для каждого входа. Это концептуально очень грязно, но легко программировать.

источник

2016-08-25 16:50:22 LYH

извините, я не понял ваш подход к решению. То, что я делаю, это каждая пара действий действий - это набор функций, который используется во входном слое нейронной сети и целевой T = немедленная награда + максимальная отдача от следующего состояния вперед. но так как максимальный выигрыш от следующего состояния будет варьироваться, потому что другой набор действий доступен из следующего состояния вперед. теперь как захватить это в текущем состоянии, не включая действия, доступные из следующего состояния вперед как функцию в текущем состоянии вектора состояния и пары пар действий? – Prabir

Q-learning с аппроксимацией функции, где каждое состояние не имеет одинакового набора действий.

ответ

Смежные вопросы