Градиентная временная разность Лямбда без функции Приближение

В каждом формализме GTD (λ), по-видимому, определяется его с точки зрения приближения функции, используя θ и некоторый весовой вектор w.Градиентная временная разность Лямбда без функции Приближение

Я понимаю, что потребность в градиентных методах широко исходила из их свойств сходимости для линейных аппроксиматоров функций, но я хотел бы использовать GTD для выборки важности.

Можно ли использовать GTD без приближения функции? Если да, то как формализуются уравнения обновления?

источник

2016-04-30 Andnp

Я понимаю, что когда вы говорите «без функции приближения», вы имеете в виду представление функции значения V в виде таблицы. В этом случае табличное представление V также можно рассматривать как аппроксиматор функции.

Например, если мы определим функцию приближенного значения как:

Затем, используя табличное представление, есть так много возможностей, как государства, и вектор признаков для данного состояния s является ноль для всех состояний, кроме s (что он равен единице), а вектор параметров theta сохраняет значение для каждого состояния. Следовательно, GTD, а также другие алгоритмы могут использоваться без каких-либо изменений в табличном виде.

источник

2016-05-04 11:49:20

Это именно то, что я искал, спасибо! Я должен был видеть, что тета может быть интерпретирована как функция значения, используя кодировку one-of-k. – Andnp

Градиентная временная разность Лямбда без функции Приближение

ответ

Смежные вопросы