Я запускаю задачу MapReduce в файлах Gzipped .arc. Как и в случае с question, у меня возникают трудности, так как декомпрессия Gzip выполняется автоматически (поскольку файлы имеют расширение .gz), но это вызывает проблемы, связанные с возвратом новой строки/каретки как только новой строки в соответствии с кодировкой Unix-файла. Это делает вход полностью нечитаемым, поскольку он зависит от конкретных значений символов, встроенных в файл. Я пытаюсь отключить декомпрессию Gzip, поэтому я могу сделать это вместо этого в моем картографе правильно. Я пробовал:Отключение Gzip Входная декомпрессия в AWS Elastic Map Уменьшить
-jobconf stream.recordreader.compression=none
Но это, похоже, не влияет на сжатие. Есть ли способ предотвратить декомпрессию Gzip на моем входе?
Спасибо, -Geoff
Это четко указывает на проблему. Благодаря! – ghayes