Есть ли какой-либо алгоритм для решения полу-марковского решения-процесса с конечным горизонтом?Непрерывный конечный горизонт MDP
Я хочу найти оптимальную политику для решения последовательного решения с ограниченным пространством действий, пространством конечного состояния и крайним сроком. Критически, разные действия занимают разные промежутки времени, и для одного из действий эта продолжительность является стохастической. Я могу моделировать время как дискретное или непрерывное, в зависимости от того, какие методы доступны.
Я знаю алгоритмы для дисконтированных полу-MDP с бесконечным горизонтом, но я не могу найти работу над полу-MDP с конечным горизонтом. Раньше изучался этот класс проблем?