я совершенно новое с Hadoop, и у меня есть вопрос ...запись в файловой системе Hadoop параллельно
У меня есть выходной файл (результат задачи), и я хотел бы изменить его. Как это может быть очень большой файл, я хочу сделать эту операцию в parralel.
Примечание: Я не хочу, чтобы просто добавить данные, я хочу, чтобы изменить структурно (даже размер), так что я должен прочитать его полностью и записать его обратно
Прочитайте файл не является проблема, я даю каждому работнику часть файла, они просто должны прочитать его и внести необходимые изменения.
Но для записи нового файла в hdfs кажется более сложным.
Мой вопрос: Как я могу создать большой файл в hdfs и заставить моих рабочих писать в него одновременно (я знаю размер каждой части, поэтому два работника никогда не будут пытаться писать в одном месте).
Заранее спасибо :)