2017-02-17 9 views
0

Я пытаюсь интегрировать алгоритм совместной работы в Spark MLLib с H2o Ai, используя иглу из иглы для рекомендации продукта. Я следовал этой ссылкеИнтеграция алгоритма Spark MLLib с H2O ai с использованием игристой воды

http://spark.apache.org/docs/latest/mllib-collaborative-filtering.html

и обновленный код, который был ниже

System.setProperty("hadoop.home.dir", "D:\\backup\\lib\\winutils") 
    val conf = new SparkConf() 
     .setAppName("Spark-InputFile processor") 
     .setMaster("local") 

    val sc = new SparkContext(conf) 

    val inputFile = "src/main/resources/test.data" 

    val data = sc.textFile(inputFile) 

    val ratings = data.map(x=>{ 
     val mapper = x.split(",") 
     Rating(mapper(0).toInt,mapper(1).toInt,mapper(2).toDouble) 
    }) 
    // Build the recommendation model using ALS 
    val rank = 10 
    val numIterations = 10 
    val model = ALS.train(ratings, rank, numIterations, 0.01) 



    // Save and load model 
    model.save(sc, "target/tmp/myCollaborativeFilter") 
    val sameModel = MatrixFactorizationModel.load(sc, "target/tmp/myCollaborativeFilter") 

    val modelRdd = sameModel.recommendProductsForUsers(100) 

    implicit val sqlContext = SparkSession.builder().getOrCreate().sqlContext 
    import sqlContext.implicits._ 

    val modelDf = modelRdd.toDF("Rdd","Rdd1") 




    @transient val hc = H2OContext.getOrCreate(sc) 

    val h2oframe:H2OFrame = hc.asH2OFrame(modelDf) 

Когда я запускаю код в Intellij я получаю ошибку ниже

Exception in thread "main" java.util.NoSuchElementException: key not found: StructType(StructField(user,IntegerType,false), StructField(product,IntegerType,false), StructField(rating,DoubleType,false)) 
    at scala.collection.MapLike$class.default(MapLike.scala:228) 
    at scala.collection.AbstractMap.default(Map.scala:59) 
    at scala.collection.MapLike$class.apply(MapLike.scala:141) 
    at scala.collection.AbstractMap.apply(Map.scala:59) 
    at org.apache.spark.h2o.utils.ReflectionUtils$.vecTypeFor(ReflectionUtils.scala:132) 
    at org.apache.spark.h2o.converters.SparkDataFrameConverter$$anonfun$3.apply(SparkDataFrameConverter.scala:68) 
    at org.apache.spark.h2o.converters.SparkDataFrameConverter$$anonfun$3.apply(SparkDataFrameConverter.scala:68) 
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234) 
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234) 
    at scala.collection.Iterator$class.foreach(Iterator.scala:893) 
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1336) 
    at scala.collection.IterableLike$class.foreach(IterableLike.scala:72) 
    at scala.collection.AbstractIterable.foreach(Iterable.scala:54) 
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:234) 
    at scala.collection.AbstractTraversable.map(Traversable.scala:104) 
    at org.apache.spark.h2o.converters.SparkDataFrameConverter$.toH2OFrame(SparkDataFrameConverter.scala:68) 
    at org.apache.spark.h2o.H2OContext.asH2OFrame(H2OContext.scala:132) 
    at org.apache.spark.h2o.H2OContext.asH2OFrame(H2OContext.scala:130) 
    at com.poc.sample.RecommendataionAlgo$.main(RecommendataionAlgo.scala:54) 
    at com.poc.sample.RecommendataionAlgo.main(RecommendataionAlgo.scala) 
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
    at java.lang.reflect.Method.invoke(Method.java:498) 
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147) 

Как я могу решить эта ошибка?

Заранее спасибо.

ответ

1

modelRdd будет типа Tuple2<Object, Rating> (или эквивалент в Scala), Rating не тип мы (газированная вода) обеспечивает автоматическое преобразование для (это не String, Double, Float etc. и не осуществлять Product). Нам определенно нужно добавить туда более содержательное сообщение об ошибке.

Чтобы исправить это вместо того, чтобы DataFrame с Object, Rating с modelRdd.toDF("Rdd","Rdd1") вы можете сопоставить его в DF с 4 колоннами Object, user, product, rating, а затем использовать hc.asH2OFrame().

+0

Это решает мой первый вопрос. Какие-либо сплошные ссылки для полного примера, чтобы начать с Искрящейся воды до конца? – mvg

+0

@mvg Я знаю, что наша документация немного позади - мы работаем над ее обновлением до 2.x, но я думаю, что это все же должно быть выполнимо, чтобы получить полный рабочий пример, следуя нашим рекомендациям Github README и стандартным искровым практикам. Какие части вы находите сложными? –

+0

Я взял этот код https://github.com/h2oai/sparkling-water/blob/master/examples/src/main/scala/org/apache/spark/examples/h2o/AmazonFineFood.scala и создал файл jar из он и отправил его в Spark-Submit, и он начинает поток H2o. Я открыл его в браузере и застрял там, потому что он больше похож на инструмент конфигурации. – mvg

 Смежные вопросы

  • Нет связанных вопросов^_^