2015-02-07 4 views
0

Я использовал файл данных кинофильма (ml-100k.zip) u.data без изменений, поэтому у него были столбцы: userID, MovieID и рейтинг пользователей.Если я использую SIMILARITY_LOGLIKELIHOOD (LLR), рейтинг элементов действительно игнорируется?

Я использовал ЛОП:

Hadoop банку C: \ HDP \ Mahout-0.9.0.2.1.3.0-1981 \ ядро ​​\ цель \ погонщик-ядро-0.9.0.2.1.3.0-1981-работу .jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob -s SIMILARITY_LOGLIKELIHOOD --input u.data --output udata_output

Когда я смотрю на файл udata_output я вижу рекомендовал фильм идентификаторы следует рекомендация оценка как:

1226: 5,0 и 896: 4,798878

Оценки рекомендаций казалось варьироваться от 5,0 до 4.x

Однако, когда я удален столбец рейтинг пользователя из u.data файла и повторно запустили такую ​​же командную строку выше, я получил результаты, как:

615: 1.0

, где ВСЕ рекомендации были 1,0.

2 вопросы:

1) Если ЛОП игнорирует рейтинги пользователей и единственный вход меняю является ли обеспечить рейтинг пользователей почему изменить баллы рекомендаций?

2) В целом, я пытаюсь определить рейтинг рекомендаций, поэтому я использую LLR. Кроме того, следует игнорировать рекомендации и сосредоточиться только на заказах рекомендованных товаров (например: первый элемент занимает выше второго)?

Заранее спасибо.

ответ

1

LLR не использует сильные стороны. Теория состоит в том, что если пользователь фактически взаимодействовал с элементом, это все необходимое. LLR будет коррелировать это взаимодействие с другими пользователями и счетом на основе вероятностного расчета, называемого Log Likelihood Ratio. Он создает сильные стороны, но использует только количество взаимодействий.

Ответы

  1. Это может быть ошибкой или может быть потому, что вы используете логический Рекомендатор в одном случае и не-логическое значение в других. Я мог бы сказать, что рекомендация пытается предоставить рейтинги с учетом значений. Но ничто из этого не имеет особого значения, если вы пытаетесь оптимизировать рейтинг
  2. Вам действительно не нужно смотреть на рекомендации веса, если вы не пытаетесь прогнозировать оценки, которые редко бывают в наши дни. Доверяйте ранжированию рецензий.

BTW Mahout теперь имеет рекомендацию совершенно нового поколения, основанную на использовании поисковой системы для предоставления рекомендаций и Mahout для расчета модели.Он имеет много преимуществ по сравнению со старшей версией Hadoop, включая:

  1. Мультимодальный: он может принимать множество различных действий пользователя по множеству разных предметов. Это позволяет использовать большую часть пользовательского щелчка, чтобы рекомендовать.
  2. Результаты реального времени: он имеет очень быстрый масштабируемый сервер в поиске Solr или Elastic.
  3. Из-за природы в реальном времени он может рекомендовать новых пользователей или пользователей с очень недавней историей. Старшие рекомендующие рекомендации Hadoop Mahout рекомендуют пользователям и элементам данных обучения - они не могут реагировать на историю, которая не использовалась при обучении. Новый рекомендатель может использовать собранные данные в реальном времени даже для новых пользователей.

Новый мультимодальные Recommender в Mahout 1,0-снимок или выше описано здесь:

+0

Еще раз спасибо. Кроме того, я не понимал, что использую более старую версию Hadoop. Я рассмотрю более новую, которую вы предложили. – RandomTask

+0

Посмотрите в Mahout 1.0-SNAPSHOT. Это совершенно другая архитектура, чем версии Hadoop или in-memory. – pferrel