Мне было интересно, как распределенная задающая рекомендация mahout org.apache.mahout.cf.taste.hadoop.item.RecommenderJob
обрабатывает файлы csv, где дублируются и вписываются данные пользователя, элементы позиций, но с разными значениями предпочтений. Например, если бы я имел .csv файл, который имел записи, как
1,1,0.7
1,2,0.7
1,2,0.3
1,3,0.7
1,3,-0.7
Mahout Datamodel с дублирующимся пользователем, item enteries, но разные значения предпочтений
Как DataModel Mahout в справиться с этим? Объединит ли он значения предпочтений для данного пользователя, запись элемента (например, для элемента пользователя 1,2 предпочтение будет равно (0,7 + 0,3)), или оно усредняет значения (например, для элемента пользователя 1,2 предпочтение (0,7 + 0,3)/2) или по умолчанию используется последний пользователь, элемент, который он обнаруживает (например, для пользователя 1,2 значение предпочтения установлено равным 0,3).
Я задаю этот вопрос, потому что рассматриваю рекомендации, основанные на множественных показателях предпочтений (взгляды на элементы, нравы, антипатии, сохранение корзины и т. Д.). Было бы полезно, если бы datamodel обрабатывал значения предпочтений в виде линейных весов (например, представления позиций плюс сохранить в список пожеланий имеет более высокий показатель предпочтения, чем представления элементов). Если datamodel уже обрабатывает это путем суммирования, это спасло бы меня от дополнительной дополнительной карты, чтобы сортировать и вычислять общие баллы на основе нескольких показателей. Любое разъяснение, которое любой может предоставить на mahout .csv datamodel, работает в этом отношении для org.apache.mahout.cf.taste.hadoop.item.RecommenderJob
. Благодарю.
Похоже, это может быть решена с помощью реализации алгоритма R K средств. Просто хотел поделиться информацией. – Swamy