0
Я попытался найти, что такое pi * во многих ресурсах, например this link. Но я не могу найти, что такое pi *. Является ли V * таким же, как V_pi *?Как описать оптимальную политику (pi *) уравнения звонящего?
Я попытался найти, что такое pi * во многих ресурсах, например this link. Но я не могу найти, что такое pi *. Является ли V * таким же, как V_pi *?Как описать оптимальную политику (pi *) уравнения звонящего?
π * используется для обозначения "оптимальной политики". V * и Q * - функции оптимального значения. Оптимальные функции ценности приводят к оптимальной политике.
Изучите раздел 4.6 на странице https://web.fe.up.pt/~eol/schaefer/diplom/ReinforcementLearning.htm