Задачи Torque PBS, идущие в очередь отладки

На моей новой работе я администрирую кластер, в котором используется крутящий момент в качестве менеджера ресурсов и мауи в качестве планировщика.Задачи Torque PBS, идущие в очередь отладки

В настоящее время я столкнулся с этой повторяющейся проблемой, когда конкретные задания пользователей всегда отправляются в очередь отладки. Вот список активных очередей в системе:

Queue   Memory CPU Time Walltime Node Run Que Lm State 
---------------- ------ -------- -------- ---- --- --- -- ----- 
debug    --  -- 00:20:00 -- 0 0 12 E R 
intel    --  --  --  -- 0 0 -- E R 
medium    --  -- 72:00:00 -- 0 0 12 E R 
bighuge   --  --  --  -- 0 0 -- E R 
long    --  --  --  -- 0 0 12 E R 
               ----- ----- 
                0  0

Стены время для работ, представленных пользователем в часах, так что я озадачен, почему его посылает в очередь отладки.

Кроме того, здесь есть выход tracejob:

04/08/2016 15:46:48 S enqueuing into intel, state 1 hop 1 
04/08/2016 15:46:48 S dequeuing from intel, state QUEUED 
04/08/2016 15:46:48 S enqueuing into debug, state 1 hop 1 
04/08/2016 15:46:48 S Job Queued at request of [email protected], owner = [email protected], job name = run01_submit.script, queue = 
          debug 
04/08/2016 15:46:49 S Job Run at request of [email protected] 
04/08/2016 15:46:49 S child reported success for job after 0 seconds (dest=n20), rc=0 
04/08/2016 15:46:49 S preparing to send 'b' mail for job 15631.cm01 to [email protected] (---) 
04/08/2016 15:46:49 S Not sending email: User does not want mail of this type. 
04/08/2016 15:46:49 S obit received - updating final job usage info 
04/08/2016 15:46:49 S job exit status 1 handled 
04/08/2016 15:46:49 S preparing to send 'e' mail for job 15631.cm01 to [email protected] (Exit_status=1 
04/08/2016 15:46:49 S Not sending email: User does not want mail of this type. 
04/08/2016 15:46:49 S Exit_status=1 resources_used.cput=00:00:00 resources_used.mem=0kb resources_used.vmem=0kb 
          resources_used.walltime=00:00:00 
04/08/2016 15:46:49 S on_job_exit task assigned to job 
04/08/2016 15:46:49 S req_jobobit completed 
04/08/2016 15:46:49 S JOB_SUBSTATE_EXITING 
04/08/2016 15:46:49 S JOB_SUBSTATE_STAGEOUT 
04/08/2016 15:46:49 S about to copy stdout/stderr/stageout files 
04/08/2016 15:46:49 S JOB_SUBSTATE_STAGEOUT 
04/08/2016 15:46:49 S JOB_SUBSTATE_STAGEDEL 
04/08/2016 15:46:49 S JOB_SUBSTATE_EXITED 
04/08/2016 15:46:49 S JOB_SUBSTATE_COMPLETE 
04/08/2016 15:50:54 S Request invalid for state of job COMPLETE 
04/08/2016 15:51:00 S Request invalid for state of job COMPLETE 
04/08/2016 15:51:49 S dequeuing from debug, state COMPLETE

Обходной теперь вручную изменить назначенный очереди для заданий с помощью команды qalter.

Любые идеи?

источник

2016-04-08 feverDream

Поскольку работа сразу же переходит из очереди Intel для отладки, я подозреваю, что вы настроили автоматическую маршрутизацию либо в qmgr, либо в Maui. Если очередь Intel настроена как очередь маршрутизации, это объяснит это.

Запустить qmgr -c "print queue intel", чтобы проверить это.

Если это не очередь маршрутизации, возможно, вы можете увеличить loglevel, чтобы лучше видеть, что происходит в журналах pbs_server.

При создании очереди маршрутизации таким образом, я получаю один и тот же тип выходного tracejob при подаче задания:

05/20/2016 20:04:05.439 S enqueuing into route, state 1 hop 1 05/20/2016 20:04:05.440 S dequeuing from route, state QUEUED 05/20/2016 20:04:05.440 S enqueuing into test, state 1 hop 1 05/20/2016 20:04:05.737 S Job Run at request of [email protected]

В противном случае, проверьте конфигурации Maui и журналы для подсказки.

источник

2016-05-21 02:10:53 clusterdude

Спасибо, что ответили. Это спорадическая проблема, поэтому я никогда не решался ее решить. Я буду обновлять вопросы на основе ваших предложений. Ура! – feverDream

Задачи Torque PBS, идущие в очередь отладки

ответ

Смежные вопросы