Я использую рамки python yelp/mrjob для своих заданий mapreduce. Имеются только около 4 Гб данных, и я не хочу испытывать проблемы с настройкой Hadoop или EMR. У меня 64-ядерная машина, и для обработки данных с помощью mrjob требуется около 2 часов. Я замечаю, что для моей работы mrjob назначает 54 mappers, но, похоже, работает только по одному. Есть ли способ заставить mrjob выполнять все задачи параллельно со всеми ядрами процессора?Использовать многоядерные ядра с LocalMRJobRunner для MRJob
Я вручную изменил количество задач, но не очень помог. --jobconf mapred.map.tasks=10 --jobconf mapred.reduce.tasks=10
EDIT: Я имею -r local
когда я выполняю работу, однако, глядя на code, кажется, он по умолчанию запустить один процесс в то время. Скажите, пожалуйста, я ошибаюсь.
Спасибо, я надеюсь запустить hadoop в докер. – Andy