У меня есть файл CSV с 10 столбцами. Половина строк и половина - это целые числа.Как создать схему из файла CSV и сохранить/сохранить эту схему в файл?
Что код Scala в:
- Создать (Infer) схемы
- Сохранить эту схему в файл
меня это до сих пор:
import org.apache.spark.sql.SQLContext
val sqlContext = new SQLContext(sc)
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true") // Use first line of all files as header
.option("inferSchema", "true") // Automatically infer data types
.load("cars.csv")
И каков наилучший формат файла для сохранения этой схемы? Это JSON?
Цель - я хочу создать схему только один раз и в следующий раз при загрузке из файла вместо повторного создания его на лету.
Спасибо.