В контексте информационного поиска элементы обрабатываются логически, то есть они являются релевантными или не релевантными. В GenericRecommenderIRStatsEvaluator от Mahout используется сплиттер данных для создания набора из уже предпочтительных (или купленных в вашем случае, купленных) предметов, которые представляют собой соответствующие элементы. В случае mahout выбранными элементами являются наиболее популярные наименования. Итак, поскольку рейтинги являются логическими, он просто выбирает n предпочтительных элементов. Я не верю, что это сделало бы оценку самой резкой, более неточной, чем с нормальными пятизвездочными рейтингами, поскольку покупка является довольно сильным признаком предпочтения. Итак:
1) Если вам удалось вынести рекомендации, вы можете оценить рекомендации с использованием точности и отзыва в качестве показателей.
2) Я использовал случайный рекомендатель в качестве эталона (просто реализация рекомендации mahout, которая выбирает n случайных элементов). Он обычно производит довольно низкую точность и напомнит, что если алгоритм имеет более низкую точность и отзыв, чем случайный рекомендатор, он, вероятно, должен быть удален. Другим показателем, который я бы посмотрел на этапе офлайновой оценки, является доступность, поскольку рекомендация, которая дает рекомендации только 80 пользователям из 6000 активных пользователей, бесполезна.
Также следует отметить, что в научных документах показатели точности и отзыва были подвергнуты критике при использовании в качестве единственной метрики. В конечном итоге пользователь решает, что актуально и что не имеет значения. И рекомендатель, который производит немного ниже, чем другой, не обязательно хуже, чем другой. Например, более новые или убедительные рекомендации могут любить точность и запоминать.