0

Есть ли какой-либо алгоритм для решения полу-марковского решения-процесса с конечным горизонтом?Непрерывный конечный горизонт MDP

Я хочу найти оптимальную политику для решения последовательного решения с ограниченным пространством действий, пространством конечного состояния и крайним сроком. Критически, разные действия занимают разные промежутки времени, и для одного из действий эта продолжительность является стохастической. Я могу моделировать время как дискретное или непрерывное, в зависимости от того, какие методы доступны.

Я знаю алгоритмы для дисконтированных полу-MDP с бесконечным горизонтом, но я не могу найти работу над полу-MDP с конечным горизонтом. Раньше изучался этот класс проблем?

ответ

0

Как и в случае с любым MDP, динамическое программирование с обратной связью должно работать. Вы можете дискретировать свой конечный горизонт небольшими шагами от 0 до крайнего срока, а затем рекурсивно обновлять значения, начиная с крайнего срока. В пространстве состояний вам нужно будет отслеживать текущее действие, общее время тратить на это действие и уже выполненные действия. Число возможных состояний может быть довольно большим.

В динамической программе вы можете использовать, что вы можете выбрать функцию значения для состояния в момент завершения действия.