Я хочу использовать наборы данных вместо dataframes.Как прочитать файл паркета с большим количеством столбцов в наборе данных без специального класса case?
Читает паркетный файл и хочет вывести типы непосредственно:
val df: Dataset[Row] = spark.read.parquet(path)
Я не хочет Dataset[Row]
но и Dataset
.
Я знаю, что могу сделать что-то вроде:
val df= spark.read.parquet(path).as[myCaseClass]
, но мои данные есть много колонок! поэтому, если я могу избежать написания класса case, это было бы здорово!
Вы можете выбрать нужные столбцы, прежде чем преобразовывать их в 'DataSet'. –