2016-01-07 2 views
1

Я видел различные форматы файлов, используемые при импорте и хранении в HDFS, а также механизмы обработки данных используют эти форматы при выполнении своего собственного набора процедур. Так какая разница эти форматы файлов делают и как их выбор сделан для разных случаев использования. С новичком это создает путаницу.Avro, паркет и SequenceFileFormat позиция в Hadoop Ecosystem и их полезность

ответ

3

Выбор зависит от используемого варианта использования, соответствующего типу данных, совместимости с инструментами обработки, эволюции схемы, размера файла, типа запросов и характеристик чтения.

В целом:

  • Авро является более подходящим для данных о событии, которое может со временем измениться
  • последовательности для наборов данных sharded между заданиями MR
  • Паркет больше подходит для аналитика из-за его столбчатой ​​формат

Вот некоторые клавиши, которые могут помочь вам

Запись производительности (более + есть чем быстрее)

  • Последовательность: +++
  • Avro: ++
  • Паркет: +

Чтение производительности (более + есть быстрее находится)

  • Последовательность: +
  • Авро: + +
  • Паркет: + + + + +

Размеры файлов (более + имеют меньший размер файла есть)

  • Последовательность: +
  • Avro: ++
  • Паркет: + + +

и вот некоторые факты о каждом типе файла

Avro:

  • лучше в эволюции схемы
  • Является ли строка ориентированный двоичный формат
  • Имеет схему
  • файл содержит схему в дополнение к данным.
  • поддерживает эволюцию схемы
  • Может быть сжат
  • Компактный и быстрый бинарный формат

Паркет:

  • Slow в письменном виде, но быстро при чтении
  • ли столбец ориентированный двоичный формат
  • поддерживает сжатие
  • Оптимизированные и эффективное с точкой зрения ввода/вывода диска, когда определенные столбцы должны быть запрошены

SequenceFile:

  • ли строка ориентированного формата
  • Поддерживает расщепление, даже если данные сжимают
  • Может использоваться для упаковки небольших файлов в hadoop

Желаю, чтобы мой ответ вам помог

+1

Большое спасибо за ваше время :). Его очень информативный ... +2 –

+0

Что касается их накладных расходов на конвертацию, когда простые текстовые файлы преобразуются в эти форматы.? Является ли она зависимой от технологии –

+0

, она зависит от схемы, например, для avro накладные расходы зависят от размера данных в соответствии с размером схемы. но в случае больших накладных расходов вы можете использовать другие технологии, которые позволяют обойти эти ограничения, такие как confluent.io. nb: если вы найдете мой ответ полезным, пожалуйста, примите его и оцените его, чтобы помочь другим людям –