У меня есть иерархический каталог, в каждом каталоге есть много файлов, и в каждом текстовом файле есть много строк URL. Я хочу загрузить все URL-адреса во все файлы в Hadoop для лучшего баланса.Как разбить входной набор для лучшего баланса Hadoop?
Например, если у меня есть 1 + 5 узлов Hadoop-кластера и 5 URL-адресов. Например, это 5-URL-в-одном файле или 1-URL-файл (затем получить 5 файлов) в качестве входных данных получить более лучший баланс?
Я думаю, что Hadoop по умолчанию будет разделять входной набор как блок 64M для запуска только на одном узле, не может запускать все 5 подчиненных устройств.
Спасибо, ответьте!