Для необработанных журналов рекомендуется использовать формат файла контейнера, такой как SequenceFileFormat, который поддерживает сжатие и разделение. Для хранения журналов с использованием этого формата вам нужно будет выбрать временную метку в качестве ключа и зарегистрированной строки в качестве значения. В нашей команде мы широко используем SequenceFiles.
Для расщепляемого LZO вам необходимо предварительно обработать файлы для генерации индекса. Без индекса структура MapReduce будет обрабатывать весь файл как единый раскол (один картограф), и обработка будет неэффективной.
В книге «Hadoop The Definitive Guide» (я предлагаю вам прочитать раздел «Сжатие»), есть раздел, рекомендующий использовать формат сжатия. В соответствии с рекомендацией, являются следующими вариантами от наиболее эффективных наименее эффективные:
форматов Container как SequenceFile, Avro, ORCFiles, Паркетные файлы с быстрым компрессором, как LZO, LZ4 или Snappy
формат сжатия, который поддерживает разделение: bzip2 или расщепляющееся LZO
разбить файл на куски и каждый кусок сжимают отдельно, используя формат сжатия