2016-12-28 8 views
1

Я пытаюсь создать рекомендательную систему, основанную на истории покупок, используя trainImplicit. Мой вход в домен [1, + inf) (сумма просмотров и покупок).Понимание Spark MLlib ALS.trainImplicit формат ввода

Таким образом, элемент моего ввода RDD выглядит так: [(user_id,item_id),rating] --> [(123,5564),6] - пользователь (id = 123) взаимодействует с элементом (id = 5564) 6 раз.

Следует ли добавить к моим элементам RDD, таким как [(user_id,item_id),rating] --> [(123,2222),0], что означает, что данный пользователь никогда не взаимодействовал с данным элементом или ALS.implicitTrain делает это неявно?

ответ

0

Это не обязательно (для неявного) и не должно быть сделано (для явного), поэтому в данном случае только данные, базирующиеся на басе.

+0

Вы имеете в виду, что модель, обученная на наборе данных с нулями, даст примерно те же рекомендации, что и модель, обученная на наборе данных без нулей? Или эти дополнительные нули повлияют на результат? – Masha

+0

В неявной он не должен влиять на результаты, в явном виде это существенно повлияет на результат. – user7337271