Мы используем HDP2.5 и имеем задание, которое обрабатывает некоторые строки из HBase. Я установил ключ запуска и конец ключа для задания, а также попытался установить mapreduce.input.fileinputformat.split.maxsize
для увеличения количества карт, но независимо от значения split maxsize я получаю 25 задач карты ...Hadoop игнорирует mapreduce.input.fileinputformat.split.maxsize при создании разделов
Я пробовал несколько значений, которые равны 2,4 , В 8 раз меньше, чем dfs.blocksize
. Например. mapreduce.input.fileinputformat.split.maxsize=67108864 dfs.blocksize=134217728
Включение журналов диспетчера приложений не раскрывает каких-либо полезных советов о том, как YARN принимает решение о количестве заданий карты. Я просто вижу такие сообщения, как: INFO util.RegionSizeCalculator: Calculating region sizes for table "my_table" ... INFO mapreduce.JobSubmitter: number of splits:25
Что было бы правильным способом увеличить количество заданий на карте для задания?