2016-04-16 10 views
-1

Я хотел бы преобразовать данные дня avro (~ 2 ТБ) в паркет.Улей Огромный размер данных увеличивается с преобразования avro в паркет

Я запустил запрос на улей, и данные успешно преобразованы в паркет.

Но размер данных стал 6 ТБ.

Что случилось бы, чтобы данные стали в три раза больше?

+0

Вы установили специальный кодек сжатия для таблицы Parquet? AFAIK использует Snappy по умолчанию - дешево на процессоре, но не очень эффективный диск ... –

+0

Вы пытались использовать ORC вместо Parquet? * (кодек сжатия по умолчанию - GZip, вы можете переключиться на Snappy или None) * –

+0

Я забыл установить свойство для сжатия. Возможно, по умолчанию он несжатый. – user2942227

ответ

-1

Как правило, паркет может быть более эффективным, чем Avro, так как столбцы столбцов одинакового типа смежны на диске. Это позволяет в некоторых случаях повысить эффективность алгоритмов сжатия. Обычно мы используем Snappy, который является достаточным, легким для процессора и имеет несколько свойств, которые делают его подходящим для Hadoop относительно других методов сжатия, таких как zip или gzip. Главным образом snivid является splittable; каждый блок сохраняет информацию, необходимую для определения схемы. MParquet - отличный формат, и мы очень довольны производительностью запросов после перехода от Avro (и мы также можем использовать Impapla, который является супер-быстрым).

+0

Я забыл установить свойство для сжатия. Возможно, по умолчанию он несжатый. – user2942227

+0

Я забыл установить свойство для сжатия. Возможно, по умолчанию он несжатый. – user2942227