2016-01-19 1 views
0

Это связано с тем, что файлы паркета делают запросы OLAP быстрее причиной его столбчатого формата, а на другой стороне дублируется дубликат (данные необработанных данных + паркет). , даже если паркет можно сжать, разве вы не думаете, что дублирование всех данных может стоить много?Дублирование паркета и данных

ответ

0

Это зависит от вашего использования. Дублирование может потребоваться, если вам нужны данные по разным причинам, скажем, для хранения данных и запроса.

Паркет спроектирован лучше всего для запроса, особенно OLAP-запроса, который часто затрагивает только определенную колонку. Между тем, требуется больше времени, чтобы написать файл Parquet, чем другой файл.

Короче говоря, если обе данные являются объектами OLAP-запроса, возможно, вам придется иметь в виду только версию файла Parquet.

См. Этот документ для справки. http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2

 Смежные вопросы

  • Нет связанных вопросов^_^