Как правило, паркет может быть более эффективным, чем Avro, так как столбцы столбцов одинакового типа смежны на диске. Это позволяет в некоторых случаях повысить эффективность алгоритмов сжатия. Обычно мы используем Snappy, который является достаточным, легким для процессора и имеет несколько свойств, которые делают его подходящим для Hadoop относительно других методов сжатия, таких как zip или gzip. Главным образом snivid является splittable; каждый блок сохраняет информацию, необходимую для определения схемы. MParquet - отличный формат, и мы очень довольны производительностью запросов после перехода от Avro (и мы также можем использовать Impapla, который является супер-быстрым).
Вы установили специальный кодек сжатия для таблицы Parquet? AFAIK использует Snappy по умолчанию - дешево на процессоре, но не очень эффективный диск ... –
Вы пытались использовать ORC вместо Parquet? * (кодек сжатия по умолчанию - GZip, вы можете переключиться на Snappy или None) * –
Я забыл установить свойство для сжатия. Возможно, по умолчанию он несжатый. – user2942227