2014-11-26 3 views
3

Я работаю над кластером SGE и имею некоторые проблемы с системой уведомлений электронной почты qsub. Все мои работы работают отлично, но я не могу изменить поведение по умолчанию, чтобы уведомлять только о прерванной работе. Флаг -M работает правильно, и я получаю электронное письмо, когда задание прерывается, однако я хотел бы получить электронное письмо, когда работа начинается, заканчивается, прерывается или приостанавливается. Я использую следующие флагов (и более) в моих сценариях, есть ли что-то глупое, чего я не хватает?SGE Cluster qsub email notifications

#!/bin/bash 
#$ -S /bin/bash 
#$ -M [email protected] 
#$ -m beas 

program 

Он также не работает, когда я пытаюсь следующее:

qsub -M [email protected] -m baes script.sh 

Является ли это вопрос, который я должен взять с моим админов кластера SYS, или я сделал что-то неправильно?

Благодарим за помощь.

ответ

3

Важная вещь, которую следует понимать при решении этой проблемы, заключается в том, что адрес электронной почты вашего задания будет отправлен узлом, где выполняется задание. Например, у меня есть тестовое задание со следующим выходом:

#!/bin/bash 
# 
#$ -N MAIL 
#$ -j y 
#$ -m easb 
#$ -M pkenyon 

hostname 

Теперь запустите работу и посмотрите, где она работает.

[[email protected] ~]$ qsub mail.sh 
Your job 346 ("MAIL") has been submitted 
[[email protected] ~]$ cat MAIL.o346 
node03.cluster 

Если вы посмотрите на почтовые журналы в системе, вы увидите сделанные попытки доставки. Вам придется диагностировать оттуда. Вот несколько примеров неудач (или даже успехи, которые не увенчались успехом, как вы хотите, чтобы они были):

  • Отправленные на адрес вычислительного узла, используя -M pkenyon

    ... 
    Jun 5 13:56:00 node04 postfix/local[13141]: 14A3E143320: to=<[email protected]>, orig_to=<pkenyon>, relay=local, delay=0.05, delays=0.03/0/0/0.01, dsn=2.0.0, status=sent (delivered to mailbox) 
    ... 
    
  • Глава узел MX не настроен правильно, используя -M [email protected]

    ... 
    Jun 5 14:00:30 node04 postfix/smtp[13283]: 35CC4143320: to=<[email protected]>, relay=none, delay=0.36, delays=0.17/0/0.19/0, dsn=5.4.4, status=bounced (Host or domain name not found. Name service error for name=head.cluster type=AAAA: Host not found) 
    ... 
    
  • Вам нужно настроить систему для использования локального ретранслятора почты при использовании -M [email protected]

    ... 
    Jun 5 12:20:47 node04 postfix/smtp[12798]: 1EEA5143320: to=<[email protected]>, relay=ASPMX.L.GOOGLE.com[64.233.168.27]:25, delay=0.64, delays=0.04/0/0.59/0.02, dsn=5.0.0, status=bounced (host ASPMX.L.GOOGLE.com[64.233.168.27] said: 550 Relay not permitted (in reply to RCPT TO command)) 
    ... 
    

Так что да, вы должны поговорить с кассетными сисадмины, но это первые шаги к выяснить, где ваши Sge письма отбоя. С помощью немного дополнительной информации администраторы смогут исправить проблему с конфигурацией и помочь вам получить больше от вашей кластерной среды.

+0

Отличный совет Пол, это определенно даст мне что-то для работы. –