2014-09-09 10 views
1

У меня есть файл в 1.2 HGB в Hadoop, сжатый в кодеке BZip2. Наш кластер Hadoop YARN имеет 10 узлов. HDFS размер блока составляет 128 МБ, поэтому я думаю, что файл разделен на 10 блоков. BZip2 должен быть разделяемым кодеком, поэтому я подумал, что когда я начинаю обрабатывать входной файл, Hadoop выполняет 10 задач карты (по одному для каждого блока). Но когда я смотрю журналы работы, я вижу только одну задачу «Карта».Разбиение BZip2 не работает

Я не нашел никаких настроек, которые ограничивают количество карт в YARN (в отличие от Hadoop 1).

Что мне не хватает или что я делаю неправильно?

Спасибо

ответ

0

Я никогда не использовал BZip2, но я думаю, что этот вопрос, возможно, придется делать с вашим fileInputFormat Вам также может понадобиться настроить fileInputFormat принять плз взглянуть на эту answer.