Я следую советам https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dealing_with_bad_data.html, чтобы очистить некоторые данные json.Преобразование набора данных линий Json в Dataframe с SparkSession
Однако руководство устарело, и я хотел бы использовать sparkSession
для загрузки набора данных и разбора json.
spark.read.text('file.json').as[String].map(x => parse_json(x))
Так что я закончил с Dataset[String]
вместо RDD[String]
, как я прочитал строки JSON в наборе данных?
Попробуйте spark.read.text ('file.json'). Карта (х => parse_json (х)). Рдд – Pushkr
@Pushkr да, работает – user113531