Преобразование набора данных линий Json в Dataframe с SparkSession

Я следую советам https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dealing_with_bad_data.html, чтобы очистить некоторые данные json.Преобразование набора данных линий Json в Dataframe с SparkSession

Однако руководство устарело, и я хотел бы использовать sparkSession для загрузки набора данных и разбора json.

spark.read.text('file.json').as[String].map(x => parse_json(x))

Так что я закончил с Dataset[String] вместо RDD[String], как я прочитал строки JSON в наборе данных?

источник

2017-02-17 user113531

Попробуйте spark.read.text ('file.json'). Карта (х => parse_json (х)). Рдд – Pushkr

@Pushkr да, работает – user113531

Определите класс case (аналогичный java pojo) с ожидаемой структурой и сопоставьте входные данные с ним. Столбцы автоматически выравниваются по имени, и типы сохраняются. Рассмотрим person.json, как

{"name": "Narsireddy", "age": 30, "technology": "hadoop"}

Определить случай класса как случае класса Person (имя: String, возраст: Integer, технологии: String). Прочитайте файл JSon и карта для набора данных лиц

val personDataSet = sqlContext.read.json("/person.json").as[Person]

источник

2017-02-17 04:01:22 Narsireddy

Преобразование набора данных линий Json в Dataframe с SparkSession

ответ

Смежные вопросы