2016-11-28 4 views
0

Мы используем HDP2.5 и имеем задание, которое обрабатывает некоторые строки из HBase. Я установил ключ запуска и конец ключа для задания, а также попытался установить mapreduce.input.fileinputformat.split.maxsize для увеличения количества карт, но независимо от значения split maxsize я получаю 25 задач карты ...Hadoop игнорирует mapreduce.input.fileinputformat.split.maxsize при создании разделов

Я пробовал несколько значений, которые равны 2,4 , В 8 раз меньше, чем dfs.blocksize. Например. mapreduce.input.fileinputformat.split.maxsize=67108864 dfs.blocksize=134217728

Включение журналов диспетчера приложений не раскрывает каких-либо полезных советов о том, как YARN принимает решение о количестве заданий карты. Я просто вижу такие сообщения, как: INFO util.RegionSizeCalculator: Calculating region sizes for table "my_table" ... INFO mapreduce.JobSubmitter: number of splits:25

Что было бы правильным способом увеличить количество заданий на карте для задания?

ответ

0

Задачи карты по умолчанию в HBaseMapReduceUtil сопоставляются с количеством регионов. В Splice Machine (Open Source) мы генерируем больше точек, опросив файлы хранилища hbase. Мы также добавили подход, в котором мы читаем файлы хранилища напрямую с инкрементными дельтами из memstore против чтения удаленно из HBase (Slow).

Могу ли я отправить ссылку на код, если вы заинтересованы?