ответ

2

π * используется для обозначения "оптимальной политики". V * и Q * - функции оптимального значения. Оптимальные функции ценности приводят к оптимальной политике.

Изучите раздел 4.6 на странице https://web.fe.up.pt/~eol/schaefer/diplom/ReinforcementLearning.htm