2016-01-05 3 views
0

Я запускаю задание в многоузловом кластере с slurm, OpenMPI и python (anaconda с MKL). Когда я отправляю работу, все работает, как и ожидалось. Однако, если я вхожу в один из узлов, выполняющих задание, и использую htop для просмотра запущенных процессов, я вижу задания, которые я начал, и для каждого из них я вижу еще 10 процессов «клонирования», которые занимают ту же память, что и начатое мной задание но имеют нагрузку 0 CPU (все, что меняется, это PID и CPU (0%), все остальное одинаково).Slurm запускает больше рабочих мест, чем я спрашиваю

Может ли кто-нибудь объяснить это поведение?

Спасибо!

P.S. вот batchscript я использую, чтобы представить работу:

#!/bin/zsh 
#SBATCH --job-name="DSC on Natims" 
#SBATCH -n 16 
#SBATCH -N 8 
#SBATCH --ntasks-per-node=2 
#SBATCH --mem-per-cpu=20G 
#SBATCH --output="log_dsc%j.out" 
#SBATCH --error="log_dsc%j.err" 
mpiexec -iface bond0 python dsc_run.py 
+0

Вы можете добавить скрипт, который вы отправляете? –

ответ

0

Эти темы в программе, так как они являются частью одного и того же процесса. Переключить отображение технологических потоков, нажимая верхний регистр «H» в htop, чтобы увидеть разницу. Нажмите F2, чтобы просмотреть параметры дисплея в меню «Настройка». Вы можете также отображать потоки другого цвета.

+0

Спасибо, что очень полезно! – gex

+0

Знаете, почему половина нитей дает 0 в настройке TIME? – gex

+0

Потому что они еще не бежали на сотню секунд? –

 Смежные вопросы

  • Нет связанных вопросов^_^