Не удалось сохранить RDD [String] в виде текстового файла, используя saveAsTextFile

Когда я пытаюсь записать свое RDD в текстовый файл на HDFS, как показано ниже, я получаю сообщение об ошибке.Не удалось сохранить RDD [String] в виде текстового файла, используя saveAsTextFile

val rdd = sc.textFile("/user/hadoop/dxld801/test.txt") 
val filtered = rdd.map({line=> line.replace("\\N","NULL")}) 
filtered.saveAsTextFile("hdfs:///user/hadoop/dxld801/test.txt")

Ошибка:

Caused by: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.mapred.DirectFileOutputCommitter not found

Я бег все выше в искровых оболочках и моя версия искры является 1.4.0

Это команда, которую я использую для запуска оболочки $SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0 --jars /home/hadoop/lib/native/hadoop-lzo-0.4.14.jar

Я пробовал поиск в Интернете, чтобы узнать, где этот класс «DirectFileOutputCommitter» доступен, но похоже, что этот класс вообще не существует в этом мире.

Трассировка:

java.lang.RuntimeException: java.lang.RuntimeException: 
> java.lang.ClassNotFoundException: Class 
> org.apache.hadoop.mapred.DirectFileOutputCommitter not found 
>   at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1927) 
>   at org.apache.hadoop.mapred.JobConf.getOutputCommitter(JobConf.java:722) 
>   at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$4.apply$mcV$sp(PairRDDFunctions.scala:983) 
>   at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$4.apply(PairRDDFunctions.scala:965) 
>   at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$4.apply(PairRDDFunctions.scala:965) 
>   at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:148) 
>   at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:109) 
>   at org.apache.spark.rdd.RDD.withScope(RDD.scala:286) 
>   at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:965) 
>   at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$1.apply$mcV$sp(PairRDDFunctions.scala:897) 
>   at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$1.apply(PairRDDFunctions.scala:897) 
>   at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopFile$1.apply(PairRDDFunctions.scala:897) 
>   at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:148) 
>   at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:109) 
>   at org.apache.spark.rdd.RDD.withScope(RDD.scala:286) 
>   at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:896) 
>   at org.apache.spark.rdd.RDD$$anonfun$saveAsTextFile$1.apply$mcV$sp(RDD.scala:1400) 
>   at org.apache.spark.rdd.RDD$$anonfun$saveAsTextFile$1.apply(RDD.scala:1379) 
>   at org.apache.spark.rdd.RDD$$anonfun$saveAsTextFile$1.apply(RDD.scala:1379) 
>   at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:148) 
>   at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:109) 
>   at org.apache.spark.rdd.RDD.withScope(RDD.scala:286) 
>   at org.apache.spark.rdd.RDD.saveAsTextFile(RDD.scala:1379) 
>   at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:26) 
>   at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:31) 
>   at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:33) 
>   at $iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:35) 
>   at $iwC$$iwC$$iwC$$iwC.<init>(<console>:37) 
>   at $iwC$$iwC$$iwC.<init>(<console>:39) 
>   at $iwC$$iwC.<init>(<console>:41) 
>   at $iwC.<init>(<console>:43) 
>   at <init>(<console>:45) 
>   at .<init>(<console>:49) 
>   at .<clinit>(<console>) 
>   at .<init>(<console>:7) 
>   at .<clinit>(<console>) 
>   at $print(<console>) 
>   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
>   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 
>   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
>   at java.lang.reflect.Method.invoke(Method.java:606) 
>   at org.apache.spark.repl.SparkIMain$ReadEvalPrint.call(SparkIMain.scala:1065) 
>   at org.apache.spark.repl.SparkIMain$Request.loadAndRun(SparkIMain.scala:1338) 
>   at org.apache.spark.repl.SparkIMain.loadAndRunReq$1(SparkIMain.scala:840) 
>   at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:871) 
>   at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:819) 
>   at org.apache.spark.repl.SparkILoop.reallyInterpret$1(SparkILoop.scala:857) 
>   at org.apache.spark.repl.SparkILoop.interpretStartingWith(SparkILoop.scala:902) 
>   at org.apache.spark.repl.SparkILoop.command(SparkILoop.scala:814) 
>   at org.apache.spark.repl.SparkILoop.processLine$1(SparkILoop.scala:657) 
>   at org.apache.spark.repl.SparkILoop.innerLoop$1(SparkILoop.scala:665) 
>   at org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$loop(SparkILoop.scala:670) 
>   at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply$mcZ$sp(SparkILoop.scala:997) 
>   at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:945) 
>   at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:945) 
>   at scala.tools.nsc.util.ScalaClassLoader$.savingContextLoader(ScalaClassLoader.scala:135) 
>   at org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$process(SparkILoop.scala:945) 
>   at org.apache.spark.repl.SparkILoop.process(SparkILoop.scala:1059) 
>   at org.apache.spark.repl.Main$.main(Main.scala:31) 
>   at org.apache.spark.repl.Main.main(Main.scala) 
>   at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
>   at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) 
>   at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
>   at java.lang.reflect.Method.invoke(Method.java:606) 
>   at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:664) 
>   at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:169) 
>   at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:192) 
>   at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:111) 
>   at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala) Caused by: java.lang.RuntimeException: 
> java.lang.ClassNotFoundException: Class 
> org.apache.hadoop.mapred.DirectFileOutputCommitter not found 
>   at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1895) 
>   at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1919) 
>   ... 68 more Caused by: java.lang.ClassNotFoundException: Class org.apache.hadoop.mapred.DirectFileOutputCommitter not found 
>   at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1801) 
>   at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1893) 
>   ... 69 more

Может кто-нибудь помочь мне решить эту проблему?

источник

2015-08-18 Ravitej Somayajula

Похоже, что путь для сохранения местоположения "hdfs:///user/hadoop/dxld801/test.txt" неправ. Оно должно быть: "/user/hadoop/dxld801/test.txt" или "hdfs://HOSTNAME:PORT/user/hadoop/dxld801/test.txt"

исправить также строку: rdd.map({line=> line.replace("\\N","NULL")}) к rdd.map{line=> line.replace("\\N","NULL")}

источник

2015-08-18 10:22:20 ipoteka

Спасибо за ответ @ipoteka, я пытался всеми способами, не было отмечено выше, до сих пор не повезло. 'HDFS: // имя_хоста: 9101/пользователь/Hadoop/тест/test_out.txt и /пользователь/Hadoop/тест/test_out.txt' –

@RavitejSomayajula также зафиксировать строку:' rdd.map ({строки = > line.replace ("\\ N", "NULL")}) '- я отредактировал свой ответ. – ipoteka

Это не сработало, @ipoteka. Возможно, нам нужно попытаться определить, почему оболочка не может найти 'org.apache.hadoop.mapred.DirectFileOutputCommitter', несмотря на работу в среде hadoop. –

Не удалось сохранить RDD [String] в виде текстового файла, используя saveAsTextFile

ответ

Смежные вопросы