reinforcement-learning

1зной

2ответ

Отказоустойчивость улучшает модели даже при доступе к бесконечным данным?

Насколько хорошо поняты руководящие принципы, когда следует использовать исключение или просто получить больше данных? Я раньше понимал, что, учитывая достаточные данные, не хотелось бы использовать в

4зной

1ответ

NEAT vs Reinforcement Learning

Насколько я знаю, NEAT (нейроэволюция дополняющих топологий) - это алгоритм, который использует концепцию эволюции для обучения нейронной сети. С другой стороны, обучение усилению - это тип машинного

1зной

1ответ

ε-жадная политика с уменьшающейся скоростью исследования

Я хочу реализовать ε-жадную политику выбора политики в Q-learning. Здесь многие люди использовали, уравнение для уменьшения скорости разведки, ɛ = е^(- En) п = возраст агента E = эксплуатация параметр

10зной

1ответ

Как сделать softmax работать с градиентом политики?

Я пытаюсь изменить код Карпаты, чтобы он работал с функцией softmax, чтобы я мог использовать его для игры с более чем двумя действиями. Однако я не могу заставить его работать. Может кто-нибудь помоч

0зной

1ответ

разведка и эксплуатация в Q-обучении

В алгоритме Q-обучения выбор действия зависит от текущего состояния и значений Q-матрицы. Я хочу знать, обновляются ли эти значения Q только на этапе исследования или они также меняются на этапе экспл

0зной

1ответ

нелогичных результаты на несколько вооруженных бандита упражнений

я работаю через главу 2, раздел 7, Саттон & Барт в подкрепление: Введение, которая занимается градиентными методами в нескольких вооруженных бандите проблеме. (Я понимаю, что второе издание представля

0зной

1ответ

Какова лучшая объектная функция задачи CartPole?

Я занимаюсь политическим градиентом, и я пытаюсь выяснить, что является лучшей целевой функцией для задачи. Задачей является открытая ai CartPole-v0 среда, в которой агент получает вознаграждение 1 за

0зной

1ответ

Speedy Q-Learning

Я прочитал на википедии https://en.wikipedia.org/wiki/Q-learning Q-обучения могут страдать от медленной скорости сходимости, особенно когда коэффициент дисконтирования {\ displaystyle \ Gamma} \ гамма

2зной

1ответ

Нейронная сеть для tic-tac-toe

Я пишу нейронную сеть, которая может играть в tic-tac-toe. Сеть имеет 9 входных нейронов, которые описывают состояние платы (1 - для сетевых перемещений, 1,5 - для противников, 0 - для пустых ячеек) и