2017-01-21 20 views
0

Я запрашиваю 14 процессоров от одного одного (каждый из них имеет 32), как это:PBS держит прерывании мои работы

#PBS -l nodes=1:ppn=14 

#PBS -l walltime=12:00:00 

И с более низким ppn он почти всегда работает, но как только я получаю на номера выше, чем 14- ish, работа начинает выполнение и немедленно прекращается. tracejob является особенно бесполезен:

tracejob 14753.hpc2 

Job: 14753.hpc2 

01/21/2017 11:12:36 L Considering job to run 
01/21/2017 11:12:36 L Job run 
01/21/2017 11:12:36 M Resource_List.place = scatter 
01/21/2017 11:12:36 M make_cpuset, vnode hpc2[0]: hv_ncpus (2) > mvi_acpus (0) (you are not expected to understand this) 
01/21/2017 11:12:36 M start_exec, new_cpuset failed 
01/21/2017 11:12:36 M kill_job 
01/21/2017 11:12:36 M hpc2 cput= 0:00:00 mem=0kb 
01/21/2017 11:12:37 M Obit sent 
01/21/2017 11:12:37 M copy file request received 
01/21/2017 11:12:37 M staged 2 items out over 0:00:00 
01/21/2017 11:12:37 M delete job request received 
01/21/2017 11:12:37 M delete job request received 
01/21/2017 11:12:38 M no active tasks 
01/21/2017 11:12:38 M delete job request received 

меня иногда успешно просили больше процессоров, так что это не полностью детерминированным. Есть ли способ отладить это?

В качестве бокового узла любое задание, которое запрашивает более одного узла, находится в очереди навсегда и никогда не запускается, я не знаю, связано ли это.

+0

Какой менеджер ресурсов и версия вы используете? Тот же вопрос для планировщика. – clusterdude

ответ

0

Вы пытаетесь выполнить «qrun» и решительно пытаетесь запустить эту работу по указанному vnode?

Если нет, можете ли вы поделиться данными pbsnodes vnode hpc2 [0]?

В качестве возможного решения попробуйте перезапустить свою маму или установить общий доступ к маме (конечно, для этого вам нужно быть привилегированным пользователем).