Могу ли я гарантировать, что новая задача Hadoop будет возобновлена в точке входного файла, где не удалось выполнить задачу?

Я бегу Hadoop 2.7.2.Могу ли я гарантировать, что новая задача Hadoop будет возобновлена в точке входного файла, где не удалось выполнить задачу?

Скажем, что 10 задач Hadoop выполняются и каждая задача обрабатывает 1 текстовый файл ввода HDFS.

Предположим, что одна из задач не выполнена, скажем, читая строку 566 файла входного файла HDFS05.

Что происходит по умолчанию? Будет ли вторая попытка Hadoop возобновиться в строке 567 файла05? Или начнется вторая попытка задачи в первой строке файла05?

В зависимости от используемого варианта, я могу захотеть выбрать, где закончилась неудачная обработка. Или иначе, в другом случае, я могу начать обрабатывать этот файл заново.

Что я могу сделать, чтобы гарантировать, что вторая попытка задачи Hadoop возобновится в строке 567 файла05?

Что я могу сделать, чтобы гарантировать, что вторая попытка задачи начнется в первой строке файла05?

источник

2017-01-11 Ben Weaver

Если задача не выполнена, Мастер приложений снова попытается запустить ее заново. Задача будет перезапущена заново. Существует параметр для того, сколько раз повторная попытка разрешена. Если он превышен, то вся заявка будет уничтожена.

источник

2017-01-13 17:46:11 BDBoss

Правильно, поэтому я предполагаю, что он начнется в строке 1 файла05 в моем примере выше. –

Да, это правильно – BDBoss

Могу ли я гарантировать, что новая задача Hadoop будет возобновлена ​​в точке входного файла, где не удалось выполнить задачу?

ответ

Смежные вопросы

Могу ли я гарантировать, что новая задача Hadoop будет возобновлена в точке входного файла, где не удалось выполнить задачу?