reinforcement-learning

0зной

1ответ

Есть ли какой-либо алгоритм для решения полу-марковского решения-процесса с конечным горизонтом? Я хочу найти оптимальную политику для решения последовательного решения с ограниченным пространством де

0зной

2ответ

Q Переполнения коэффициентов обучения

Я использовал вызов Blackbox (www.blackboxchallenge.com), чтобы попытаться изучить некоторые подкрепления. Я создал задачу и среду для вызова, и я использую PyBrain для обучения на основе среды черног

0зной

1ответ

Как рассчитать градиенты для нейронной сети с помощью anano при использовании Q-Learning

Я пытаюсь использовать стандартную полностью связанную нейронную сеть в качестве основы для значений действий в Q-Learning. Я использую http://deeplearning.net/tutorial/mlp.html#mlp в качестве ссылки

1зной

2ответ

Укрепление обучения: дилемма выбора шагов дискретизации и показателей производительности для непрерывного действия и непрерывного пространства состояний

Я пытаюсь написать адаптивный контроллер для системы управления, а именно систему управления питанием с использованием Q-обучения. Недавно я реализовал игрушку RL для системы тележки и разработал пост

4зной

1ответ

Тензор и многопроцессорность: сеансы передачи

Я недавно работал над проектом, который использует нейронную сеть для управления виртуальным роботом. Я использовал shadoworflow, чтобы закодировать его, и он работает плавно. До сих пор я использовал

1зной

1ответ

Укрепление обучения - как агент знает, какое действие выбрать?

Я пытаюсь понять Q-Learning Основная формула обновления: Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)] Я понимаю формулу, и что она делает, но мой вопрос: Как агент знает, чтобы выбрать Q (st

2зной

1ответ

Является ли это правильной реализацией Q-Learning для Checkers?

Я пытаюсь понять Q-Learning, Мой текущий алгоритм работает следующим образом: 1. таблица поиска поддерживается, который отображает состояние информации о его немедленной награды и полезность для каждо

2зной

1ответ

Градиентная временная разность Лямбда без функции Приближение

В каждом формализме GTD (λ), по-видимому, определяется его с точки зрения приближения функции, используя θ и некоторый весовой вектор w. Я понимаю, что потребность в градиентных методах широко исходил