2016-06-04 4 views
4

Я пытаюсь получить искру, чтобы читать несжатые файлы бережливости с s3. Пока это не работает.Прочитайте несжатые файлы экономии в искры

  • данные загружаются в s3 как несжатые файлы экономии. Источником является AWS Kinesis Firehose.
  • У меня есть инструмент, который десериализует файлы без проблем, поэтому я знаю, что сериализация/десериализация сериализации работает.
  • в искре, им с помощью newAPIHadoopFile
  • с помощью LzoThriftBlockInputFormat elephantbird, я могу успешно считаны LZO сжатых файлы бережливость
  • Я не могу понять, что InputFormat я должен использовать для чтения несжатых файлов бережливость.

Возможно ли это с любым из входных форматов? Должен ли я реализовывать свои собственные?

+0

Немного старый вопрос, но я нахожусь в той же ситуации один шаг позади. вам удалось решить эту проблему? и можете ли вы обновить PLS на примере того, как вы загружаете данные в искру, поэтому я попытаюсь взять это предисловие оттуда? Спасибо! – NetanelRabinowitz

+0

да, я. отправил мой ответ ниже. –

+0

Спасибо! Я взгляну ! – NetanelRabinowitz

ответ

1

Я закончил тем, что написал свой собственный экономный десериализатор.

Необходимо реализовать пользовательский InputFormat и собственный RecordReader. Все еще удивляется, что такие классы еще не существуют в какой-либо библиотеке. Два класса были протестированы и работают, но поскольку я прекратил работу над проектом вскоре после того, как я решил это, код не будет очищен.

https://github.com/mklosi/thrift-deserializer

 Смежные вопросы

  • Нет связанных вопросов^_^