2017-01-11 10 views
0

Я бегу Hadoop 2.7.2.Могу ли я гарантировать, что новая задача Hadoop будет возобновлена ​​в точке входного файла, где не удалось выполнить задачу?

Скажем, что 10 задач Hadoop выполняются и каждая задача обрабатывает 1 текстовый файл ввода HDFS.

Предположим, что одна из задач не выполнена, скажем, читая строку 566 файла входного файла HDFS05.

Что происходит по умолчанию? Будет ли вторая попытка Hadoop возобновиться в строке 567 файла05? Или начнется вторая попытка задачи в первой строке файла05?

В зависимости от используемого варианта, я могу захотеть выбрать, где закончилась неудачная обработка. Или иначе, в другом случае, я могу начать обрабатывать этот файл заново.

Что я могу сделать, чтобы гарантировать, что вторая попытка задачи Hadoop возобновится в строке 567 файла05?

Что я могу сделать, чтобы гарантировать, что вторая попытка задачи начнется в первой строке файла05?

ответ

1

Если задача не выполнена, Мастер приложений снова попытается запустить ее заново. Задача будет перезапущена заново. Существует параметр для того, сколько раз повторная попытка разрешена. Если он превышен, то вся заявка будет уничтожена.

+0

Правильно, поэтому я предполагаю, что он начнется в строке 1 файла05 в моем примере выше. –

+0

Да, это правильно – BDBoss

 Смежные вопросы

  • Нет связанных вопросов^_^