Если размер входного файла составляет 200 МБ, то будет 4 блока/входные расщепления, но на каждом узле данных будет работать с ним. Если все 4 входных разделения находятся в одном узле данных, будет выполнена только одна задача карты?
или как количество задач карты зависит от входного разделения?
Также будет выполняться Track Track Task на всех узлах данных и Job Tracker на одном узле данных в кластере?Входные разрывы в Hadoop
ответ
Количество карт полностью зависит от отсутствия расщепления, а не от расположения блоков/расколов. Таким образом, для вашего случая это будет 4. Поскольку вы говорите все в одном узле, вам также нужно учитывать, что будут реплики этих блоков в разных узлах. Теперь есть концепция обработки с уменьшением количества карт, «локализация данных», которую захочет воспользоваться преимуществами. И еще одна вещь, чтобы рассмотреть здесь - доступность ресурсов. Таким образом, для блока (реплики всех, обычно 3), который будет выполнен, hasoop найдет datanode, в котором присутствует блок, и доступен ресурс. Таким образом, это может привести к ситуации, описанной вами, реплики из 4 блоков присутствуют в одном из узлов, и у нее есть ресурсы, которые потребуют преобразования карт. Но задача карты будет 4, это точно.
TaskTracker? Почему вы используете Hadoop MR1? –
Я просто хотел узнать об архитектуре. Мы можем рассмотреть версию 2.x также – Harshi
Возможный дубликат [Размер разделения входов Hadoop и размер блока] (http://stackoverflow.com/questions/17727468/hadoop-input-split-size-vs-block-size) –