MrJob тратит много времени на копирование локальных файлов в HDFS

Проблемы Я сталкиваюсь это: Уже кладет input.txt (50MBytes) файл в HDFS, я бегMrJob тратит много времени на копирование локальных файлов в HDFS

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop

Кажется, что MrJob тратит много времени на копирование файлов в hdfs (опять?)

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/

Это логично? Не следует ли использовать input.txt прямо из HDFS?

(Использование Hadoop версии 2.6.0)

источник

2015-09-27 Nikos

Посмотрите на содержание hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/, и вы увидите, что input.txt не файл, который копируется в HDFS.

Что копируется, это весь каталог python mrjob, так что он может быть распакован на каждом из ваших узлов. (mrjob предполагает, что mrjob не установлен на каждом из узлов вашего кластера.)

источник

2016-02-17 11:29:39 vy32

MrJob тратит много времени на копирование локальных файлов в HDFS

ответ

Смежные вопросы