2015-03-03 1 views
0

Я не могу понять этот оператор в Hadoop - Definitive Guide 3rd Edition (Страница 31) «Иногда, однако, все три узла, на которых размещаются реплики блоков HDFS для ввода данных карты запускают другие задачи карты, поэтому планировщик заданий будет искать свободный слот карты на узле в той же стойке, что и один из блоков. Очень редко даже это невозможно, поэтому используется стоечный узел, сетевой передачи ". ,Задание на вкладке задачи карты выполняется другая задача карты

мой вопрос

1) я не в состоянии получить полный контекст этого заявления

2) Означает ли это, если входной раскол accquired на других задачах карты говорит (работаю Map Task) , он говорит (ожидание задачи карты) будет искать другую копию того же раскола? «Задача« Ожидание карты »не использует вывод« Задания «Запуск карты», если логика карты такая же, как и в задаче «Запуск карты» и «Задача ожидающей карты»

ответ

0

Как вы можете читать дальше в той же книге (у меня есть копия на моей стороне), существует огромная обеспокоенность в отношении пропускной способности. Таким образом, ближайший узел данных к задаче сопоставления, лучшая производительность будет доставлена.

Вы также можете прочитать в той же книге, что Hadoop не догадывается топологии сети сама по себе (есть глава для такой конфигурации),

в отношении вопроса 2) В идеале размер раскола должен быть так же, как размер блока HDFS. Иногда файлы нельзя разделить (если вы проверите сжатие, вы увидите, что некоторые алгоритмы сжатия не разрешают разделение), поэтому картографу придется извлекать несколько блоков. Кроме того, эти блоки могут быть распределены по нескольким стойкам.