q-learning

4зной

1ответ

Tic tac toe machine learning - действительные ходы

Я играю с машиной. Особенно Q-Learning, где у вас есть состояние и действия, а также вознаграждение в зависимости от того, насколько хорошо работает сеть. Теперь для начала я поставил себе простую цел

0зной

1ответ

Q-обучение с приближением линейной функции

Я хотел бы получить несколько полезных инструкций о том, как использовать алгоритм Q-обучения с приближением функции. Для базового алгоритма Q-обучения я нашел примеры, и я думаю, что понял это. В слу

0зной

2ответ

Q Переполнения коэффициентов обучения

Я использовал вызов Blackbox (www.blackboxchallenge.com), чтобы попытаться изучить некоторые подкрепления. Я создал задачу и среду для вызова, и я использую PyBrain для обучения на основе среды черног

13зной

1ответ

Как использовать оптимизатор Tensorflow без повторной активации активации в программе обучения арматуре, которая возвращает управление после каждой итерации?

EDIT (1/3/16): corresponding github issue Я использую Tensorflow (интерфейс Python) для реализации ватного обучения агента с функцией приближения обучен с использованием стохастического градиентного с

2зной

1ответ

Deepmind Deep Q Network (DQN) 3D Convolution

Я читал бумагу природы Deepmind в сети DQN. Я почти получил все, кроме него. Я не знаю, почему никто не задавал этот вопрос раньше, но мне все равно немного странно. Мой вопрос: Вход в DQN - это изобр

1зной

1ответ

Укрепление обучения - как агент знает, какое действие выбрать?

Я пытаюсь понять Q-Learning Основная формула обновления: Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)] Я понимаю формулу, и что она делает, но мой вопрос: Как агент знает, чтобы выбрать Q (st

2зной

1ответ

Внедрение Tensorflow потери Q-сети с нарезкой

Я реализую Q-сеть, как описано в Управлении уровня человека, посредством обучения глубокой арматуре (Mnih et al., 2015) в TensorFlow. Для приближения Q-функции используется нейронная сеть. Q-функция о