Скажем, работа sqoop записывает инкрементный импорт в каталог hdfs. Другое (не-sqoop) задание периодически перемещает данные из этого каталога в другое место для обработки. Я бы хотел, чтобы эта работа не перемещала файлы, которые сейчас модифицируются sqoop. Есть ли способ иметь готовые файлы, переименованные в определенный шаблон, когда они хороши для перемещения?Есть ли способ увидеть, что sqoop закончил запись в файл?
Если файлы не перемещены, sqoop просто добавляет новый контент в существующие файлы part-m-000x каждый раз?
Да, это именно то, что я хочу. Я спрашиваю, есть ли способ заставить sqoop работать одинаково (или если он работает по умолчанию)? – Art
По умолчанию этот режим не работает. Вы должны были бы написать его. Вы можете просто обернуть утилиту sqoop скриптом, который это сделает. –