Пожалуйста, позвольте мне представить сценарий:Как обращаться с входными файлами .gz с Hadoop?
hadoop jar test.jar Test inputFileFolder outputFileFolder
где
test.jar
Информация сортирует по ключу, время и местоinputFileFolder
содержит несколько .gz файлов, каждый файл .gz составляет около 10 ГБoutputFileFolder
содержит кучу файлов .gz
Мой вопрос в том, что это лучший способ справиться с этими .gz-файлами в inputFileFolder? Спасибо!