Это связано с тем, что файлы паркета делают запросы OLAP быстрее причиной его столбчатого формата, а на другой стороне дублируется дубликат (данные необработанных данных + паркет). , даже если паркет можно сжать, разве вы не думаете, что дублирование всех данных может стоить много?Дублирование паркета и данных
0
A
ответ
0
Это зависит от вашего использования. Дублирование может потребоваться, если вам нужны данные по разным причинам, скажем, для хранения данных и запроса.
Паркет спроектирован лучше всего для запроса, особенно OLAP-запроса, который часто затрагивает только определенную колонку. Между тем, требуется больше времени, чтобы написать файл Parquet, чем другой файл.
Короче говоря, если обе данные являются объектами OLAP-запроса, возможно, вам придется иметь в виду только версию файла Parquet.
См. Этот документ для справки. http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2