По умолчанию для работы в hadoop 2.7.3 может быть два картографа. У меня есть кластер из 2 систем с 4 ядрами, доступными для каждого. Один - мастер, а один - рабочий. Теперь я хочу запустить рабочий узел 3-мерных задач. Могу ли я это сделать? Я использую потоки хаопов для выполнения задания. Итак, какой аргумент я должен установить для этой цели. Также я хочу установить один вход (строка) только одному картографу. Каким должен быть формат аргументов. Моя текущая команда, которая не в полной мере ощутить работу являетсяизменить картупер на число ядер на каждого рабочего в hadoop 2.7.3
hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar\
-D mapred.output.compress=true \
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
-files test.py -mapper test.py -reducer cat \
-input /aws/input/sample.gz -output /aws/output/test
Выход показывает, что имеется одна maptask только
Спасибо, я сказал, что хочу трех картографов на рабочих не в целом. На самом деле, я хочу полностью использовать свои рабочие ядра. – Shafiq
@Shafiq идея такая же в любом случае – AdamSkywalker
Спасибо, я застрял в другой точке. Я опубликовал http://stackoverflow.com/questions/41561367/hadoop-2-7-3-analyze-gz-files-one-mapper-to-each-file – Shafiq