Я могу успешно преобразовать CSV-файл в файл Parquet, но файл Parquet разбит на тонну файлов размером 2-3 МБ. В качестве примера CSV-25gb преобразуется в файл Parquet с более чем 700 файлами. Мои иссл
Я не уверен в концепции печати стоп-кадра. При загрузке паркетного файла, например. 1 ГБ и создание RDD из него в Spark, что будет для печати памяти для каждого RDD?
Я планирую использовать Spark для обработки данных, где каждый отдельный элемент/строка в RDD или DataFrame может иногда быть большим (до нескольких ГБ). Данные, вероятно, будут храниться в файлах Avr