Я пытаюсь использовать Spark для преобразования кучи файлов csv в паркет, с интересным случаем, что входные файлы csv уже «разделены» по каталогам. Все входные файлы имеют одинаковый набор столбцов. С
У меня есть следующая работа в модульном тесте для записи одного объекта в Avro/Parquet в файл в кластере Cloudera/HDFS. При этом, учитывая, что Parquet является столбчатым форматом, кажется, что он м