q-learning

1зной

1ответ

ε-жадная политика с уменьшающейся скоростью исследования

Я хочу реализовать ε-жадную политику выбора политики в Q-learning. Здесь многие люди использовали, уравнение для уменьшения скорости разведки, ɛ = е^(- En) п = возраст агента E = эксплуатация параметр

0зной

1ответ

разведка и эксплуатация в Q-обучении

В алгоритме Q-обучения выбор действия зависит от текущего состояния и значений Q-матрицы. Я хочу знать, обновляются ли эти значения Q только на этапе исследования или они также меняются на этапе экспл

0зной

1ответ

Speedy Q-Learning

Я прочитал на википедии https://en.wikipedia.org/wiki/Q-learning Q-обучения могут страдать от медленной скорости сходимости, особенно когда коэффициент дисконтирования {\ displaystyle \ Gamma} \ гамма

1зной

2ответ

Почему моя нейронная сеть Q-ученик не изучает tic-tac-toe

Хорошо, поэтому я создал Q-ученику нейронной сети, используя ту же идею, что и алгоритм Atari от DeepMind (за исключением того, что я даю необработанные данные, а не изображения (все же)). Нейронные с

0зной

1ответ

итерации и награды в q-learning

Доброе утро, В Q-learning агенты предпринимают действия, пока не достигнут своей цели. Алгоритм выполняется много раз до получения конвергенции. Например, целью является получение максимальной пропуск

0зной

1ответ

В Q Learning, как вы можете получить значение Q? Разве Q (s, a) не будет продолжаться вечно?

Я изучаю обучение по усилению, но я не понимаю, как подсчитывается значение Q. Если вы используете уравнение Беллмана Q(s,a) = r + γ*max(Q(s',a')), разве это не будет продолжаться вечно? Поскольку для

2зной

1ответ

Обучение только одному выходу сети в Keras

У меня есть сеть в Keras с множеством выходов, однако мои данные обучения предоставляют информацию только для одного выхода за раз. В настоящий момент мой метод обучения состоял в том, чтобы запустить