Я буду использовать большое количество файлов, структурированных следующим образом:Спарк перегородки/кластер исполнение
/day/hour-min.txt.gz
в общей сложности 14 дней. Я буду использовать кластер из 90 узлов/работников.
Я читаю все с wholeTextFiles()
, так как это единственный способ, который позволяет мне разделить данные соответствующим образом. Все вычисления будут выполняться поминутно (так, в основном, для каждого файла) с несколькими сокращениями в конце. Есть около 20 000 файлов; Как эффективно их разделять? Разрешить ли я искриться?
В идеале, я думаю, что каждый узел должен получать целые файлы; разве искра делает это по умолчанию? Могу ли я его применять? Как?
Где находятся ваши входные файлы? HDFS/S3/..? –
HDFS –
Dimebag