2

Я запускаю задачу MapReduce в файлах Gzipped .arc. Как и в случае с question, у меня возникают трудности, так как декомпрессия Gzip выполняется автоматически (поскольку файлы имеют расширение .gz), но это вызывает проблемы, связанные с возвратом новой строки/каретки как только новой строки в соответствии с кодировкой Unix-файла. Это делает вход полностью нечитаемым, поскольку он зависит от конкретных значений символов, встроенных в файл. Я пытаюсь отключить декомпрессию Gzip, поэтому я могу сделать это вместо этого в моем картографе правильно. Я пробовал:Отключение Gzip Входная декомпрессия в AWS Elastic Map Уменьшить

-jobconf stream.recordreader.compression=none 

Но это, похоже, не влияет на сжатие. Есть ли способ предотвратить декомпрессию Gzip на моем входе?

Спасибо, -Geoff

ответ

2

Я определил потенциальные проблемы и работа вокруг по этому вопросу вы ссылка:

В принципе его проблемы в PipeMapper.java, который вы можете легко изменить.

+1

Это четко указывает на проблему. Благодаря! – ghayes

 Смежные вопросы

  • Нет связанных вопросов^_^