Я видел различные форматы файлов, используемые при импорте и хранении в HDFS, а также механизмы обработки данных используют эти форматы при выполнении своего собственного набора процедур. Так какая разница эти форматы файлов делают и как их выбор сделан для разных случаев использования. С новичком это создает путаницу.Avro, паркет и SequenceFileFormat позиция в Hadoop Ecosystem и их полезность
1
A
ответ
3
Выбор зависит от используемого варианта использования, соответствующего типу данных, совместимости с инструментами обработки, эволюции схемы, размера файла, типа запросов и характеристик чтения.
В целом:
- Авро является более подходящим для данных о событии, которое может со временем измениться
- последовательности для наборов данных sharded между заданиями MR
- Паркет больше подходит для аналитика из-за его столбчатой формат
Вот некоторые клавиши, которые могут помочь вам
Запись производительности (более + есть чем быстрее)
- Последовательность: +++
- Avro: ++
- Паркет: +
Чтение производительности (более + есть быстрее находится)
- Последовательность: +
- Авро: + +
- Паркет: + + + + +
Размеры файлов (более + имеют меньший размер файла есть)
- Последовательность: +
- Avro: ++
- Паркет: + + +
и вот некоторые факты о каждом типе файла
Avro:
- лучше в эволюции схемы
- Является ли строка ориентированный двоичный формат
- Имеет схему
- файл содержит схему в дополнение к данным.
- поддерживает эволюцию схемы
- Может быть сжат
- Компактный и быстрый бинарный формат
Паркет:
- Slow в письменном виде, но быстро при чтении
- ли столбец ориентированный двоичный формат
- поддерживает сжатие
- Оптимизированные и эффективное с точкой зрения ввода/вывода диска, когда определенные столбцы должны быть запрошены
SequenceFile:
- ли строка ориентированного формата
- Поддерживает расщепление, даже если данные сжимают
- Может использоваться для упаковки небольших файлов в hadoop
Желаю, чтобы мой ответ вам помог
Большое спасибо за ваше время :). Его очень информативный ... +2 –
Что касается их накладных расходов на конвертацию, когда простые текстовые файлы преобразуются в эти форматы.? Является ли она зависимой от технологии –
, она зависит от схемы, например, для avro накладные расходы зависят от размера данных в соответствии с размером схемы. но в случае больших накладных расходов вы можете использовать другие технологии, которые позволяют обойти эти ограничения, такие как confluent.io. nb: если вы найдете мой ответ полезным, пожалуйста, примите его и оцените его, чтобы помочь другим людям –