Я запускаю задание в многоузловом кластере с slurm, OpenMPI и python (anaconda с MKL). Когда я отправляю работу, все работает, как и ожидалось. Однако, если я вхожу в один из узлов, выполняющих задание, и использую htop для просмотра запущенных процессов, я вижу задания, которые я начал, и для каждого из них я вижу еще 10 процессов «клонирования», которые занимают ту же память, что и начатое мной задание но имеют нагрузку 0 CPU (все, что меняется, это PID и CPU (0%), все остальное одинаково).Slurm запускает больше рабочих мест, чем я спрашиваю
Может ли кто-нибудь объяснить это поведение?
Спасибо!
P.S. вот batchscript я использую, чтобы представить работу:
#!/bin/zsh
#SBATCH --job-name="DSC on Natims"
#SBATCH -n 16
#SBATCH -N 8
#SBATCH --ntasks-per-node=2
#SBATCH --mem-per-cpu=20G
#SBATCH --output="log_dsc%j.out"
#SBATCH --error="log_dsc%j.err"
mpiexec -iface bond0 python dsc_run.py
Вы можете добавить скрипт, который вы отправляете? –