Как запустить Spark поверх кластера Slurm? Мне очень интересно определить SparkContext внутри моей программы и установить, сколько узлов я хочу использовать, но если мне нужно написать некоторые скрипты bash для этого, это тоже будет хорошо.Запуск Spark поверх Slurm
2
A
ответ
1
У вас есть два варианта.
- Просто используйте автономный режим Spark бок о бок с любым Slurm . Это означает выделение статической подмножества ресурсов на целевых машинах для каждой системы.
- Внедрение Slurm в качестве опции кластера для Spark. Это лучше всего подходит для правильного управления и совместного использования ресурсов , но гораздо сложнее из-за того, что вы должны найти абстракции кластеров Spark's и реализовать их правильно. Вы могли бы начать с рассмотрения того, как реализована поддержка YARN или Mesos.
5
Сороки (https://github.com/chu11/magpie) представляет собой пакет скриптов, используемых для запуска приложений Big Data (например, Спарк) поверх традиционных кластеров высокопроизводительных вычислений (таких как управляемая Слерма). Он управляет большой частью сложности заданий для организации очередей, но вам может потребоваться изменить сценарии отправки в соответствии с вашим собственным программным обеспечением Spark - см. Файл submission-scripts/script-sbatch/magpie.sbatch-spark
для получения дополнительной информации.
Как интересная заметка, вот статья о развитии LpNL в Magpie и результатах, полученных ими в кластере HPC: http://comput.llnl.gov/research/project-highlights/enhancing-data-intensive- вычислительное-Livermore – Gnat