2017-02-09 16 views
0

Я просто использую искру для чтения паркетного файла и делаю repartition(1) shuffle; затем сохраните обратно в файл паркета. Проводная вещь заключается в том, что новый файл намного больше исходного. Даже файл метаданных на сотни килобайт больше исходного. Кто-нибудь заметил эту проблему? Есть ли способ сделать паркетные файлы как можно меньше при одной стратегии сжатия (например: .gz)?другой размер одного и того же паркетного файла в искры

Редактировать: Я прочитал другой пост и получу основную идею этой проблемы. Я все еще надеюсь обсудить, какую колонку мы должны выбрать для сортировки. Надеюсь найти общую оптимизированную стратегию для выполнения этой работы.

+2

Возможный дубликат [Почему файлы Spark Parquet для агрегата больше оригинала?] (Http://stackoverflow.com/questions/38153935/why-are-spark-parquet-files-for-an-aggregate- больше, чем в оригинальном) – eliasah

ответ

0

Я хотел бы сказать, что я согласен с идеей связанного сообщения в своем сообщении. В моей ситуации сортировка будет хорошим выбором. В частности, я тестировал разные столбцы, а также отдельные и составные столбцы. В общем, сортировка с колонками, которые содержат большую часть информации вашего файла, будет эффективной стратегией. Приветствуем любые комментарии.