запись в файловой системе Hadoop параллельно

я совершенно новое с Hadoop, и у меня есть вопрос ...запись в файловой системе Hadoop параллельно

У меня есть выходной файл (результат задачи), и я хотел бы изменить его. Как это может быть очень большой файл, я хочу сделать эту операцию в parralel.

Примечание: Я не хочу, чтобы просто добавить данные, я хочу, чтобы изменить структурно (даже размер), так что я должен прочитать его полностью и записать его обратно

Прочитайте файл не является проблема, я даю каждому работнику часть файла, они просто должны прочитать его и внести необходимые изменения.

Но для записи нового файла в hdfs кажется более сложным.

Мой вопрос: Как я могу создать большой файл в hdfs и заставить моих рабочих писать в него одновременно (я знаю размер каждой части, поэтому два работника никогда не будут пытаться писать в одном месте).

Заранее спасибо :)

источник

2016-08-03 Maxime B.

Поскольку работа является чтение входного файла и запись выберите контент из входных файлов в выходном место параллельно, это картограф только работу.

Создайте класс Mapper, чтобы прочитать файл и выполнить операции с файлом .

установить номер для карт в вашем классе водителя.

job.setNumMapTasks(n); n-number of mappers

источник

2016-08-06 04:41:43 Venkateswara

запись в файловой системе Hadoop параллельно

ответ

Смежные вопросы