Изучение структуры задачи иерархического подкрепления

Я изучаю проблемы обучения в иерархической иерархии, и, хотя многие документы предлагают интересные способы изучения политики, все они, кажется, предполагают, что заранее знают структуру графа, описывающую действия в области. Например, The MAXQ Method for Hierarchial Reinforcement Learning от Dietterich описывает сложный график действий и подзадач для простого домена такси, но не как этот граф был обнаружен. Как бы вы изучили иерархию этого графика, а не только политику?Изучение структуры задачи иерархического подкрепления

источник

2010-09-27 Cerin

Вы также можете попробовать отправить свой вопрос здесь : http://stats.stackexchange.com – Theodor

Может у нас есть еще какое-то представление о сценарии, по которым вы хотите изучить иерархическую структуру армирования? Или это общий вопрос? –

@ Давай, это общий вопрос. Чтобы использовать пример бумаги, если бы такси не интересовались бесцельно, без предварительного знания мира, и только примитивные действия «движение-левый», «движение-право» и т. Д., Как бы он изучал действия более высокого уровня, такие как переход к -pick-вверх-пассажира?Если я правильно понимаю документ (и, возможно, не так), он предлагает, как обновить политику для действий высокого уровня, но не как они формируются для начала. – Cerin

В MAXQ от Dietterich график построен вручную. Это считается задачей для системного дизайнера, так же, как придумывать пространство представления и функции вознаграждения.

В зависимости от того, чего вы пытаетесь достичь, вы можете автоматически разложить пространство состояний, изучить соответствующие функции или перенести опыт с простых задач на более сложные.

Я предлагаю вам начать читать документы, относящиеся к MAXQ, с которым вы связались. Не зная, что именно вы хотите достичь, я не могу быть очень предписывающим (и я не очень высоко отношусь к текущему исследованию RL), но вы можете найти соответствующие идеи в работе Luo, Bell & McCollum или статьи Madden & Howley.

источник

2010-09-27 18:16:37

Скажите, что есть этот агент, перемещающийся вокруг вещей. Вы не знаете его внутренних целей (график задачи). Как вы определяете свои цели?

В пути, это невозможно. Так же, как невозможно, чтобы я знал, какую цель вы имели в виду, когда вы кладете эту коробку: может быть, вы устали, возможно, вы видели убийцу-пчелу, может быть, вам пришлось писать ...

Вы пытаетесь модель внутренней структуры объекта агента. Для этого вам нужно какое-то руководство относительно того, что представляет собой набор возможных целей и как они представлены действиями. В исследовательской литературе эта проблема изучалась под термином «распознавание плана», а также с использованием POMDP (частично наблюдаемый процесс принятия марковских решений), но обе эти технологии предполагают, что вы знаете что-то о целях другого агента.

Если вы ничего не знаете о своих целях, все, что вы можете сделать, это либо вывести одну из вышеуказанных моделей (это то, что мы, люди, делаем. О, он уронил свой ноутбук, он должен быть готов заложить яйцо «cse, он человек») или моделировать его как черный ящик: простая функция «состояние в действии», а затем добавляет внутренние состояния по мере необходимости (хм, кто-то должен написали статью об этом, но я не знаю, кто).

источник

2010-09-27 10:30:06

В этой проблеме я имею в виду, что у агента еще нет взаимных целей. Я спрашиваю, как агент изучает иерархию его целей и подцелей. В статье, которую я упоминаю, эта иерархия предопределена. Если бы это не было предопределено, и агент мог выполнять только примитивные действия, как бы он изучил иерархию, чтобы ускорить ее планирование и обучение? – Cerin

А, значит, вы имеете в виду, как вы пишете агента, который изучает концепции более высокого уровня, такие как «ближайший пассажир», это сложно. Проблема напоминает работу группы SOAR по «chunking» и полям основанного на основах рассуждения и основанного на объяснениях обучения (но они все еще требуют теории домена). –

В этой статье описан один подход, который является хорошей отправной точкой:

Н. Мехта, С. Рэй, П. Tadepalli и Т. Dietterich. Автоматическое обнаружение и передача иерархии MAXQ. В Международной конференции по Machine Learning, 2008

http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

источник

2010-10-06 23:25:32 thesilverbail

Изучение структуры задачи иерархического подкрепления

ответ

Смежные вопросы