Я пытаюсь получить искру, чтобы читать несжатые файлы бережливости с s3. Пока это не работает.Прочитайте несжатые файлы экономии в искры
- данные загружаются в s3 как несжатые файлы экономии. Источником является AWS Kinesis Firehose.
- У меня есть инструмент, который десериализует файлы без проблем, поэтому я знаю, что сериализация/десериализация сериализации работает.
- в искре, им с помощью newAPIHadoopFile
- с помощью LzoThriftBlockInputFormat elephantbird, я могу успешно считаны LZO сжатых файлы бережливость
- Я не могу понять, что InputFormat я должен использовать для чтения несжатых файлов бережливость.
Возможно ли это с любым из входных форматов? Должен ли я реализовывать свои собственные?
Немного старый вопрос, но я нахожусь в той же ситуации один шаг позади. вам удалось решить эту проблему? и можете ли вы обновить PLS на примере того, как вы загружаете данные в искру, поэтому я попытаюсь взять это предисловие оттуда? Спасибо! – NetanelRabinowitz
да, я. отправил мой ответ ниже. –
Спасибо! Я взгляну ! – NetanelRabinowitz