Я на данный момент пытаюсь реализовать игрока AI, используя Q-learning, чтобы играть против двух разных случайных игроков.Q обучение игре ludo?
Я не уверен, что Q-обучение применимо для игры ludo, поэтому я немного сомнительно об этом ..
У меня для игры определено 11 состояний. Каждое состояние определяется в соответствии с положением других игроков.
Мое возможное действие - 6, (ограничено костями).
Теоретически я мог бы иметь четыре разных состояния (один для каждого токена Ludo) Что может выполнять действие, выбранное кубиками, но я бы просто решил перенести токен, который имеет самые высокие Q (s, a) и peform действие.
То, что я не получаю, будет происходить на этапе обновления.
Я понимаю, что обновит предыдущее значение, с новым значением ..
Исходя из вики обновление дается как это:
То, что я не получаю, как ценность вознаграждения отличается от старой стоимости? Как это определить и как оно отличается для этих значений в матрице?