В каждом формализме GTD (λ), по-видимому, определяется его с точки зрения приближения функции, используя θ и некоторый весовой вектор w.Градиентная временная разность Лямбда без функции Приближение
Я понимаю, что потребность в градиентных методах широко исходила из их свойств сходимости для линейных аппроксиматоров функций, но я хотел бы использовать GTD для выборки важности.
Можно ли использовать GTD без приближения функции? Если да, то как формализуются уравнения обновления?
Это именно то, что я искал, спасибо! Я должен был видеть, что тета может быть интерпретирована как функция значения, используя кодировку one-of-k. – Andnp