У меня есть десять sevrers, каждый из которых будет генерировать файлы журналов 3G каждый день. Я завершил учебное пособие по хаупу и установил каждый хаос (HDFS) на каждой машине. Я хочу использовать map-reduce для анализа этих журналов.Ручка Hadoop для журналов по нескольким узлам
Мой вопрос в том, как включить ежедневные журналы для MP в hadoop? В настоящее время на сервере А, я вручную скопировать файл журнала в каталоге HDFS:
>hadoop fs -put local_log_path /A/log_20170219.1
, а затем
>hadoop jar MR_path MP_driver_class /A/log_20170219.1 output_path.
Есть ли другие более эффективные способы, так что я не должен идти каждый сервера и скопировать вновь созданные журналы в систему DFS вручную? Влияет ли команда fs -put
на большой файл данных?