Обычно говорят, что любой формат сжатия, такой как Gzip, при использовании вместе с форматом файла контейнера, таким как avro и последовательность (форматы файлов), сделает формат сжатия разделенным.Форматы сжатия файлов и форматы файлов в контейнере
Означает ли это, что блоки в формате контейнера сжаты на основе предпочтительного сжатия (например, gzip) или чего-то еще. Может ли кто-нибудь объяснить это? Благодаря!
Ну, думаю, вопрос требует обновления.
Update:
У нас есть простой подход, чтобы преобразовать большой файл в неразрываемом формате сжатие файлов (как Gzip) в расщепимый файл (используя формат файл-контейнера, такие как Avro, последовательность или паркет) для обработки MapReduce?
Примечание. Я не хочу просить обходных решений, таких как разжатие файла, и снова сжимание данных с использованием формата сплиттируемого сжатия.
Можно ли использовать формат контейнера поверх файла, сжатого с использованием нерастяжимого формата сжатия? – Marco99
Термин 'container' немного запутан, они являются« файловыми форматами », поэтому должна быть какая-то форма преобразования, если вы хотите взять существующий файл и преобразовать его в другой формат. Вы не можете просто _wrap_ файл в чем-то. –
Извините за путаницу. Упомянув «форматы файлов контейнеров», я имел в виду только форматы файлов hadoop, такие как Avro. – Marco99