2016-03-15 8 views
0

Я новичок в планировщике крутящего момента/pbs, и я установил его на сервере на одном компьютере debian 8 и сделаю еще одну установку на клиенте на вычислительном узле с debian 8.Все вакансии в Q queue для планировщика Torque Pbs

На моем сервере я имею pbs_server и pbs_sched работаю на моем вычислительном узле есть pbs_mom, каждые журналы не имеют ошибок в нем, pbsnode -a кажется хорошим:

[email protected]:[torque]>pbsnodes -a 
debian8s-2 
    state = free 
    power_state = Running 
    np = 4 
    ntype = cluster 
    status = rectime=1458048686,macaddr=00:14:5d:0f:8d:08,cpuclock=Fixed,varattr=,jobs=,state=free,netload=109918452,gres=,loadave=0.32,ncpus=4,physmem=16432364kb,availmem=20066372kb,totmem=20337896kb,idletime=13385,nusers=1,nsessions=3,sessions=989 992 998,uname=Linux debian8s-2 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u4 (2015-09-19) x86_64,opsys=linux 
    mom_service_port = 15002 
    mom_manager_port = 15003 

и каждые рабочие места я подать застревают в Q:

[email protected]:[torque]>qstat 
Job ID     Name    User   Time Use S Queue 
------------------------- ---------------- --------------- -------- - ----- 
3.debian8s-1    STDIN   tototo     0 Q batch   
5.debian8s-1    my_job   tototo     0 Q batch   
6.debian8s-1    STDIN   tototo     0 Q batch   
7.debian8s-1    STDIN   tototo     0 Q batch   
8.debian8s-1    STDIN   tototo     0 Q batch 

Я посмотрел на документацию, но не нашел ничего об этой проблеме, делает кто-нибудь имеет представление о том, что я пропустил?

спасибо.

+0

Сначала проверьте журналы планировщика. Вы можете использовать 'tracejob 3' или' qstat -f 3', чтобы получить информацию о задании №3. Распечатайте конфигурацию сервера и очереди с помощью 'qmgr -c print server'. Опубликуйте свои выводы. –

ответ

0

По мнению Дмитрия, tracejob и являются qstat -f - это хорошие места для поиска. Конечно, вы хотите проверить, действительно ли работает pbs_sched; если это так, то вам нужно устранить неполадки, проверив журналы pbs_mom, которые вы найдете по умолчанию в /var/spool/torque/mom_logs/<YYYYMMDD> на вычислительных узлах (если есть сомнения, запустите для установки детали pbs_mom --about. Кроме того, особенно в тех случаях, когда работа не запускается, возможно, придется искать pbs_mom записей войти /var/log/messages на MOM хоста вы можете отправить тестовое задание для выполнения на конкретном узле, как это:.

echo sleep 600 | qsub -l nodes=cn001:ppn=1,walltime=630

Затем, вы можете принудительно он должен быть запущен путем выдачи qrun <job ID>

Кроме того, вы можете выдать kill -SIGUSR1 $(pgrep pbs_mom) на узле, чтобы увеличить регистрацию (или momctl -q loglevel, чтобы увидеть текущий уровень, и momctl -q loglevel=6, чтобы изменить его).