2016-03-04 1 views
0

Предположим, у нас есть 5 контейнеров в нашей системе YARN. У нас есть две задачи для запуска. Job1 имеет 8 задач карты и 2 Уменьшает задачи. Job2 имеет 4 карты и 1 задачу уменьшения. Как система YARN решит сначала запустить какие задачи? и сколько картографов и редукторов начнется одновременно?сценарий исполнения сценария hadoop версии 2 (YARN)?

ответ

1

Как система YARN решит сначала запустить «задачи»? Это карта, сокращающая работу. Таким образом, задачи карты выполняются первыми. Теперь порядок (я думаю, что это ваш реальный вопрос), выполнение заданий зависит от используемого планировщика. fifo использует сначала в первую очередь - это больше не используется в производственных средах, поскольку у нас есть такие опции, как емкость и справедливый планировщик. Это снова широкая тема. https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-site/FairScheduler.htmlhttps://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html Выполнение также зависит от ресурсов кластера, доступных во время отправки заданий.

Сколько картографов и редукторов начнется одновременно? Редукторы (по крайней мере, метод уменьшения) будут выполнены только после , все задания карты завершены. Вы упомянули о количестве контейнеров, но не о количестве узлов. Параллельное выполнение зависит от памяти, которую вы выделяете карте, и сокращения задач. Взгляните на эти свойства: yarn.scheduler.minimum-alloc-mb, yarn.scheduler.maximum-alloc-mb, yarn.nodemanager.resource.memory-mb, mapreduce.map.memory.mb, mapreduce.reduce.memory .mb.

Обновление 1: Перемешивание и сортировка начнутся с момента завершения одной из задач карты. Это означает, что в то время как другие задачи карты все еще выполняются, разделенные (и комбинированные данные, если вообще выполняется комбайнер), вывод картера передается на редуктор. Но метод reduce будет вызван только после выполнения этой процедуры переноса (для всех задач карты после их завершения). Да, к тому времени произойдет распределение контейнеров.

+0

Я беспокоюсь о перетасовке промежуточных данных в фоновом режиме –

+0

, будет ли он присваивать какой-либо контейнер задачам сокращения или он будет ждать завершения mapppers. потому что упоминание о том, что задача уменьшения начинается после завершения 5% заданий карты –

+0

, где я могу получить полную информацию об Update1, упомянутом в вашем ответе? Marco99 –