Я применяю Q-обучение с приближением функции к проблеме, когда каждое состояние не имеет одного и того же набора действий. Там, когда я вычисления целевогоQ-learning с аппроксимацией функции, где каждое состояние не имеет одинакового набора действий.
Задача = R (s, a, s) + (max_a '* Q (S', а'))
Поскольку каждое состояние не имеет такой же набор действий, так должен ли я включать множество действий также в мое определение состояния ?. в противном случае то, что происходит, состоит в том, что два состояния могут быть очень похожи друг на друга во всех других функциях, кроме того факта, что у них есть очень другой набор действий, доступных оттуда. Даже если я включаю множество действий, тогда проблема - это длина вектора, потому что каждое состояние имеет различное количество действий. пожалуйста помогите.
извините, я не понял ваш подход к решению. То, что я делаю, это каждая пара действий действий - это набор функций, который используется во входном слое нейронной сети и целевой T = немедленная награда + максимальная отдача от следующего состояния вперед. но так как максимальный выигрыш от следующего состояния будет варьироваться, потому что другой набор действий доступен из следующего состояния вперед. теперь как захватить это в текущем состоянии, не включая действия, доступные из следующего состояния вперед как функцию в текущем состоянии вектора состояния и пары пар действий? – Prabir