Я бегу Hadoop 2.7.2.Могу ли я гарантировать, что новая задача Hadoop будет возобновлена в точке входного файла, где не удалось выполнить задачу?
Скажем, что 10 задач Hadoop выполняются и каждая задача обрабатывает 1 текстовый файл ввода HDFS.
Предположим, что одна из задач не выполнена, скажем, читая строку 566 файла входного файла HDFS05.
Что происходит по умолчанию? Будет ли вторая попытка Hadoop возобновиться в строке 567 файла05? Или начнется вторая попытка задачи в первой строке файла05?
В зависимости от используемого варианта, я могу захотеть выбрать, где закончилась неудачная обработка. Или иначе, в другом случае, я могу начать обрабатывать этот файл заново.
Что я могу сделать, чтобы гарантировать, что вторая попытка задачи Hadoop возобновится в строке 567 файла05?
Что я могу сделать, чтобы гарантировать, что вторая попытка задачи начнется в первой строке файла05?
Правильно, поэтому я предполагаю, что он начнется в строке 1 файла05 в моем примере выше. –
Да, это правильно – BDBoss