2016-08-24 6 views
1

Я применяю Q-обучение с приближением функции к проблеме, когда каждое состояние не имеет одного и того же набора действий. Там, когда я вычисления целевогоQ-learning с аппроксимацией функции, где каждое состояние не имеет одинакового набора действий.

Задача = R (s, a, s) + (max_a '* Q (S', а'))

Поскольку каждое состояние не имеет такой же набор действий, так должен ли я включать множество действий также в мое определение состояния ?. в противном случае то, что происходит, состоит в том, что два состояния могут быть очень похожи друг на друга во всех других функциях, кроме того факта, что у них есть очень другой набор действий, доступных оттуда. Даже если я включаю множество действий, тогда проблема - это длина вектора, потому что каждое состояние имеет различное количество действий. пожалуйста помогите.

ответ

0

Мое предложение было бы выразить действия как взвешенные суммы функций.

Например, если вы используете нейронную сеть, ваш уровень ввода будет состоять из состояний, а ваш выходной уровень будет функционировать. Вы можете вычислить Q (s, a) как сумму (NN (s) _i * a_i), где NN (s) _i - значение i-го выходного нейрона нейронной сети, заданного входом s, а a_i - вес, функция i действием a.

Это также можно интерпретировать как имеющее единую нейронную сеть, которая имеет предопределенные веса на последнем уровне, который отличается для каждого входа. Это концептуально очень грязно, но легко программировать.

+0

извините, я не понял ваш подход к решению. То, что я делаю, это каждая пара действий действий - это набор функций, который используется во входном слое нейронной сети и целевой T = немедленная награда + максимальная отдача от следующего состояния вперед. но так как максимальный выигрыш от следующего состояния будет варьироваться, потому что другой набор действий доступен из следующего состояния вперед. теперь как захватить это в текущем состоянии, не включая действия, доступные из следующего состояния вперед как функцию в текущем состоянии вектора состояния и пары пар действий? – Prabir

 Смежные вопросы

  • Нет связанных вопросов^_^