В настоящее время я пытаюсь заставить Tasauro TD gammon работать. Однако я немного смущен тем, как плата кодируется для ввода в нейронную сеть.Кодировка платы в TD-Gammon Tesauro
Я понимаю, что он использовал 4 единицы за каждую точку на доске для каждого игрока (2 * 96 единиц), каждые два дополнительных блока для шашек на баре и переносные шашки (2 * 2 единицы), а также два единицы, указывающие, в чём очередь. Это дает в общей сложности 198 входов. Я также полностью понимаю, как кодировать различные количества шашек для каждой точки.
То, что я действительно не уверен в том, что это последовательность входов. Разве что 96 первых входов кодируют белые шашки на доске, за которыми следуют два входа для белого бара и проверенные шашки; и являются ли остальные входы, выделенные черным шашкам, черной полосе, черным и двум единицам для указания текущего игрока?
Или, скорее, 4 последовательных входных блока кодируют одну точку платы для одного цвета, следующие 4 входных блока кодируют одну и ту же точку, но теперь для другого игрока?
Я был бы очень рад, если бы у кого-то было какое-то знание, потому что все, что я нашел в Интернете, довольно неоднозначно, с точки зрения последовательности ввода Tesauro, используемой для кодирования конкретной ситуации нарды.
Приветствия, Stephan
Вы пытаетесь совместить точное кодирование функции TD gammon? IMO, вы, вероятно, можете немного погубить себя, пытаясь сопоставить кодировку функций несколько десятилетий назад, когда хорошо известно, что другие нейронные сети работают лучше с разными кодировками. Мое предложение состоит в том, что вы используете представление на доске, которое правильно реализует игру (или разрабатывает собственную), а затем пробуйте различные кодировки объектов из представления этой доски. Обратите внимание, что я не преуменьшаю вклад Tesauro в AI нарды как минимум. –
Во-первых, спасибо за быстрый ответ Крис! Я хочу использовать TD gammon в качестве эталона для более сложного подхода к обучению подкрепления, который был разработан в лаборатории, в которой я работаю. Поэтому я подумал, что было бы неплохо оставаться как можно ближе к версии Tesauro. Но я думаю, что всегда полезно пройти пробную пробку. – neurotronix
Нет проблем, BTW, даже если вы не можете реплицировать точную кодировку функций, которую использовал TD Gammon, вы все равно можете выбрать кодировку, которая достаточно близко, а затем сравнить предложенный вами подход к подкреплению подходов к [временной разностной парадигме, используемой TD Gammon] (http://www.bkgm.com/articles/tesauro/tdl.html) для этого же набора функций. По крайней мере, это будет сравнение яблок с яблоками. –