В настоящее время я пытаюсь реализовать MCTS для моего проекта, но я не уверен, правильно ли понимаю идею выбора узла. В начале игры, после того, как я произвольно выбираю один ход, разматывайте все дерево до точки конца игры, а затем выполняйте обратное распространение, этот узел, очевидно, воспринимается лучше всех остальных, так как он равен 1/1 (если мы получили победу) против их 0/0. Как MCTS бежит из этой ловушки и не застревает с одним, случайно выбранным узлом?Понимание выбора узла MCTS
Я имею в виду, что если мы используем, скажем, UCB для поиска лучшего узла для расширения, он всегда будет выбирать узел, который мы выбрали первым (учитывая, что он привел к победе), полностью игнорируя все остальные, поскольку он будет быть единственным, отличным от нуля. Что мне здесь не хватает, так как это, очевидно, не так?
Получил это. Спасибо :) – Straightfw
Рад помочь! Это обычная вежливость, чтобы подтвердить ответ, если это вам помогло, поэтому было бы здорово, если бы оно действительно помогло вам! знак равно – Fezvez