В настоящее время я тренирую учебный агент по укреплению, используя простую нейронную сеть со 100 скрытыми элементами для решения игры 2048 года. Я использую алгоритм обучения усилению DQN (т. Е. Q-обучение с памятью воспроизведения), но с 2 уровнями нейронной сети вместо Deep Neural Network.Проблемы в обучении арматуре: ошибка, настройка параметров и период обучения
Однако я оставил его обученным на своем ноутбуке на ночь (~ 7 часов, ~ 1000 игр, 100 000 шагов), и оценка, похоже, не увеличивается. Я подозреваю, что в моем коде могут быть 3 источника ошибок: ошибка, параметры настроены плохо, или, может быть, я просто не жду достаточно долго.
Есть ли способ выяснить, что не так с кодом? И какова наилучшая практика для улучшения результатов обучения?