На прошлой неделе я прочитал документ, предлагающий MDP в качестве альтернативного решения для систем рекомендаций, Ядром этой статьи было представление процесса рекомендаций в терминах MDP, т.е. состояний, действия, вероятности перехода, функция вознаграждения и т. д.Марковский процесс принятия решений: одно и то же действие, ведущее к разным состояниям
Если мы предположим для простоты однопользовательскую систему, то состояния выглядят как k-кортежи (x1, x2, .. , xk)
, где последний элемент xk представляет собой последний элемент, который был приобретен пользователем. Например, предположим, что наше текущее состояние равно (x1, x2, x3)
, что означает, что пользователь приобрел x1, затем x2, затем x3, в хронологическом порядке. Теперь, если он покупает x4, новое состояние будет (x2, x3, x4)
.
Теперь, что предлагает бумага, заключается в том, что эти переходы состояния инициируются действиями, где действие «рекомендует пользователю x_i». но проблема в том, что такое действие может привести к нескольким состояниям.
Например, если наше текущее состояние (x1, x2, x3)
, и действие «рекомендовать x4» к пользователю, то возможный результат может быть один из двух:
пользователь принимает рекомендацию х4, и новое состояние будет (x2, x3, x4)
пользователь игнорирует рекомендацию x4 (т.е. покупает что-то еще) и новое состояние будет любое состояние (x2, x3, xi)
где хи! = x4
Мой вопрос, действительно MDP фактически поддерживает те же действия запускающего два или более различных состояния ?
ОБНОВЛЕНИЕ. Я думаю, что действия должны быть сформулированы так: «получает рекомендацию пункта x_i и принимает его» и «получает рекомендацию пункта x_i и отклоняет его», а не просто «получает рекомендацию по пункту x_i»
благодарит за ответ. в документе говорится, что состояния могут быть k-кортежами любого размера, поэтому k = 1 также возможно. Я еще не прочитал часть обсуждения плюсов и минусов выбора k-значений, поэтому я не могу об этом спорить:), что меня интересует, это возможность использовать одно и то же действие для перехода в несколько разных состояний. Я также прочитал вики, но ничего не говорится об этом – mangusta
. Существует также концепция Q-обучения, которая определяет функцию значения действия «Q (s, a)». он отображает каждую пару действия состояния в значение вознаграждения, поэтому мы можем выбрать лучшее действие, находясь в состоянии '' ', сравнивая значения Q (s, a)' для всех действий 'a', доступных в состоянии' s'. Но если одно и то же действие может привести к разным состояниям, это означает, что 'Q (s, a)' будет одинаковым для всех этих переходов, что имеет мало смысла – mangusta