2015-09-27 4 views
1

Проблемы Я сталкиваюсь это: Уже кладет input.txt (50MBytes) файл в HDFS, я бегMrJob тратит много времени на копирование локальных файлов в HDFS

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop 

Кажется, что MrJob тратит много времени на копирование файлов в hdfs (опять?)

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/ 

Это логично? Не следует ли использовать input.txt прямо из HDFS?

(Использование Hadoop версии 2.6.0)

ответ

1

Посмотрите на содержание hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/, и вы увидите, что input.txt не файл, который копируется в HDFS.

Что копируется, это весь каталог python mrjob, так что он может быть распакован на каждом из ваших узлов. (mrjob предполагает, что mrjob не установлен на каждом из узлов вашего кластера.)