Моего вопроса о использовании алгоритма Sarsa в подкреплении для недисконтированной, продолжая (не эпизодическая) проблема (она может быть использована для такой задачи?) У меня есть изучали учебник С
Я пытаюсь получить агента, чтобы изучить движения мыши, необходимые для наилучшей работы над заданием в настройке обучения арматуре (т. Е. Сигнал вознаграждения является единственной обратной связью д