С моей точки зрения, цель этапа воспроизведения или моделирования в MCTS заключается в получении результата и присуждении или наказании узлов на пути от корня во время backpropagation. (Пожалуйста, исправьте меня, если я ошибаюсь)Могу ли я использовать эвристику, чтобы получить результат на этапе воспроизведения в Дереве поиска Монте-Карло?
Вопрос в том, могу ли я использовать эвристику знаний домена, чтобы получить этот результат, а не фактически имитировать игру до конца.
Причина, по которой я прошу, заключается в том, что я делаю что-то похожее на поиск пути, и цель состоит в том, чтобы найти путь к состоянию цели (узлу), что означает, что симуляция игры до конца очень сложна в моем случае.