Я просто использую искру для чтения паркетного файла и делаю repartition(1)
shuffle; затем сохраните обратно в файл паркета. Проводная вещь заключается в том, что новый файл намного больше исходного. Даже файл метаданных на сотни килобайт больше исходного. Кто-нибудь заметил эту проблему? Есть ли способ сделать паркетные файлы как можно меньше при одной стратегии сжатия (например: .gz)?другой размер одного и того же паркетного файла в искры
Редактировать: Я прочитал другой пост и получу основную идею этой проблемы. Я все еще надеюсь обсудить, какую колонку мы должны выбрать для сортировки. Надеюсь найти общую оптимизированную стратегию для выполнения этой работы.
Возможный дубликат [Почему файлы Spark Parquet для агрегата больше оригинала?] (Http://stackoverflow.com/questions/38153935/why-are-spark-parquet-files-for-an-aggregate- больше, чем в оригинальном) – eliasah