Я могу успешно преобразовать CSV-файл в файл Parquet, но файл Parquet разбит на тонну файлов размером 2-3 МБ. В качестве примера CSV-25gb преобразуется в файл Parquet с более чем 700 файлами. Мои исследования показывают, что это должно быть между 256 МБ и 1 ГБ. Как указать размер аванса?Укажите размер блока паркета в PySpark
Я видел, что Импала делает это через PARQUET_FILE_SIZE. Я не смог ничего найти для PySpark. Пример код ниже:
df.write.mode("overwrite").parquet("s3n://%s:%[email protected]%s/%s" % (ACCESS_KEY, SECRET_KEY, AWS_BUCKET_NAME, FOLDER_FOR_PARQUET_RESULTS))
Правильно, но мой исходный размер файла изменится, поэтому я бы скорее уточнил размер файла vs, чтобы оценить количество разделов. –