2016-05-19 6 views
2

Я на данный момент пытаюсь реализовать игрока AI, используя Q-learning, чтобы играть против двух разных случайных игроков.Q обучение игре ludo?

Я не уверен, что Q-обучение применимо для игры ludo, поэтому я немного сомнительно об этом ..

У меня для игры определено 11 состояний. Каждое состояние определяется в соответствии с положением других игроков.

Мое возможное действие - 6, (ограничено костями).

Теоретически я мог бы иметь четыре разных состояния (один для каждого токена Ludo) Что может выполнять действие, выбранное кубиками, но я бы просто решил перенести токен, который имеет самые высокие Q (s, a) и peform действие.

То, что я не получаю, будет происходить на этапе обновления.

Я понимаю, что обновит предыдущее значение, с новым значением ..

Исходя из вики обновление дается как это:

enter image description here

То, что я не получаю, как ценность вознаграждения отличается от старой стоимости? Как это определить и как оно отличается для этих значений в матрице?

ответ

0

Награда - это вознаграждение за совершение определенного хода, а старое значение q - это значение в q-таблице, которое было выбрано в качестве действия, было наиболее привлекательным в данном состоянии. Награда здесь обновит эту запись, так что алгоритм в будущем будет знать, выиграл ли этот шаг или сделал результат хуже.