2015-05-22 4 views
1

Я хотел бы оценить механизм рекомендации на основе mahout на сайте электронной коммерции. Они используют информацию о торговых карточках об купленном товаре - так булево. Я хочу оценить двигатель, используя точность и отзыв.Оценка boolean engine engine на основе mahout - интерпретация точности и отзыва

1) Как я могу использовать эти показатели для оценки механизма рекомендаций? Можно ли использовать эти значения при изменении алгоритма и затем проверить на себя?

2) Или имеет смысл сравнивать с другими алгоритмами (также используя логические данные)? Если да, существует ли какой-либо контрольный показатель точности и отзыва (например, если точность равна х, а отзыв - y, тогда алгоритм должен быть отброшен или принят)?

В надежде найти помощь Я благодарю вас заранее, ребята!

ответ

1

В контексте информационного поиска элементы обрабатываются логически, то есть они являются релевантными или не релевантными. В GenericRecommenderIRStatsEvaluator от Mahout используется сплиттер данных для создания набора из уже предпочтительных (или купленных в вашем случае, купленных) предметов, которые представляют собой соответствующие элементы. В случае mahout выбранными элементами являются наиболее популярные наименования. Итак, поскольку рейтинги являются логическими, он просто выбирает n предпочтительных элементов. Я не верю, что это сделало бы оценку самой резкой, более неточной, чем с нормальными пятизвездочными рейтингами, поскольку покупка является довольно сильным признаком предпочтения. Итак:

1) Если вам удалось вынести рекомендации, вы можете оценить рекомендации с использованием точности и отзыва в качестве показателей.

2) Я использовал случайный рекомендатель в качестве эталона (просто реализация рекомендации mahout, которая выбирает n случайных элементов). Он обычно производит довольно низкую точность и напомнит, что если алгоритм имеет более низкую точность и отзыв, чем случайный рекомендатор, он, вероятно, должен быть удален. Другим показателем, который я бы посмотрел на этапе офлайновой оценки, является доступность, поскольку рекомендация, которая дает рекомендации только 80 пользователям из 6000 активных пользователей, бесполезна.

Также следует отметить, что в научных документах показатели точности и отзыва были подвергнуты критике при использовании в качестве единственной метрики. В конечном итоге пользователь решает, что актуально и что не имеет значения. И рекомендатель, который производит немного ниже, чем другой, не обязательно хуже, чем другой. Например, более новые или убедительные рекомендации могут любить точность и запоминать.