1

С моей точки зрения, цель этапа воспроизведения или моделирования в MCTS заключается в получении результата и присуждении или наказании узлов на пути от корня во время backpropagation. (Пожалуйста, исправьте меня, если я ошибаюсь)Могу ли я использовать эвристику, чтобы получить результат на этапе воспроизведения в Дереве поиска Монте-Карло?

Вопрос в том, могу ли я использовать эвристику знаний домена, чтобы получить этот результат, а не фактически имитировать игру до конца.

Причина, по которой я прошу, заключается в том, что я делаю что-то похожее на поиск пути, и цель состоит в том, чтобы найти путь к состоянию цели (узлу), что означает, что симуляция игры до конца очень сложна в моем случае.

ответ

1

Да, вы определенно можете. Я лично сделал это в некоторых игровых доменах, где невозможно выполнить достаточное количество симуляций до тех пор, пока не будут достигнуты состояния терминалов.

Если вы всегда рано заканчиваете моделирование и оцениваете их с помощью эвристической функции оценки, вы потеряете гарантию того, что UCT (самая распространенная реализация MCTS) найдет оптимальное действие при бесконечном количестве времени обработки, но вы редко имеете бесконечное количество времени обработки на практике. В доменах, где возможно достаточно симуляции до конца, это, вероятно, будет вредным (если только это не очень хорошая эвристическая функция и позволяет вам запускать еще много симуляций).

 Смежные вопросы

  • Нет связанных вопросов^_^