У меня есть файл в 1.2 HGB в Hadoop, сжатый в кодеке BZip2. Наш кластер Hadoop YARN имеет 10 узлов. HDFS размер блока составляет 128 МБ, поэтому я думаю, что файл разделен на 10 блоков. BZip2 должен быть разделяемым кодеком, поэтому я подумал, что когда я начинаю обрабатывать входной файл, Hadoop выполняет 10 задач карты (по одному для каждого блока). Но когда я смотрю журналы работы, я вижу только одну задачу «Карта».Разбиение BZip2 не работает
Я не нашел никаких настроек, которые ограничивают количество карт в YARN (в отличие от Hadoop 1).
Что мне не хватает или что я делаю неправильно?
Спасибо