2

Я хочу запустить нескольких рабочих демонов на одной машине. Согласно damienfrancois's ответ на what is the minimum number of computers for a slurm cluster можно сделать. В настоящее время проблема заключается в том, что я могу выполнить только один рабочий демон на одной машине. напримерЗапуск нескольких рабочих демонов SLURM

Когда я бегу

sudo slurmd -N linux1 -cDvv 
sudo slurmd -N linux2 -cDvv 

linux1 идет вниз, когда я бегу linux2. Возможно ли запустить нескольких рабочих демонов на одной машине? Вот мой slurm.conf файл

ответ

3

как ваше намерение, похоже, просто тестирование поведения Слерма, я бы рекомендовал использовать режим фронтального, где вы можете создать фиктивные узлы вычислений в одной и той же машине.

В своих FAQ, у вас есть больше деталей, но в основном вы должны настроить установку для работы в этом режиме:

./configure --enable-front-end 

и настроить узлы в slurm.conf

NodeName=test[1-100] NodeHostName=localhost 

В этом руководстве они также объясняют, как запустить несколько реальных демонов в одном и том же узле, изменив порты, но для моих целей тестирования это не было необходимо.

Удачи вам!

+0

Я сконфигурировал установку, как упоминалось выше, но все еще работает только один рабочий демон. –

+0

@PaulSchimmer Да! Но он эмулирует все узлы. Попробуйте выполнить 'sinfo', и вы увидите. – siserte

+0

Я продолжаю сталкиваться со следующей ошибкой: 'Ошибка подключения сокета slurm stream на 127.0.1.1: : Connection отказался от того, что может быть причиной? – Alper

0

У меня такая же проблема, как и вы, я разрешил ее, изменив пути файлов журнала, как упоминалось там multiple slurmd support. В вашем slurm.conf, например

SlurmdLogFile=/var/log/slurm/slurmd.log 
SlurmdPidFile=/var/run/slurmd.pid 
SlurmdSpoolDir=/var/spool/slurmd 

должен быть

SlurmdLogFile=/var/log/slurm/slurmd.%n.log 
SlurmdPidFile=/var/run/slurmd.%n.pid 
SlurmdSpoolDir=/var/spool/slurmd.%n 

Теперь вы можете запустить несколько slurmd.

Примечание: Я попытался использовать ваш slurm conf, я думаю, что некоторые параметры отсутствуют, как определить два NodeName вместо одного и добавить, какой порт использовать для каждого из узлов. Это работает для меня

# COMPUTE NODES 
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN 
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN 
# PARTITIONS 
PartitionName=main Nodes=linux1 Default=YES MaxTime=INFINITE State=UP 
PartitionName=dev Nodes=linux11 Default=YES MaxTime=INFINITE State=UP