2017-01-25 7 views
0

я столкнулся со следующей проблемой:Слерма Zombiejob очистка для MULTIPROG использует

моего модуль должен администрировать количество рабочих мест на Слерму ведения кластера. Вся партия запускается с использованием --multiprog.

Один из них использует соединения rabbitMQ и, к сожалению, не может быть закончен изящно (не мое решение сделать). В результате эта подзадача оставит работу «зомби» всякий раз, когда вся партия будет закрыта slurm. Хуже того, он посылает пульс, поддерживающий соединения rabbitMQ, и так далее.

В сущности, мне нужно продолжать охоту на зомби после каждой работы. Я попытался сделать это с помощью простого эпилога (killall -9 -f), но, по-видимому, эпилог не получает полный нодлист, поэтому не может применять «превратить нежить» во все узлы, которые использовала эта работа.

Я также не получаю полный нодлист для всех вспомогательных подмножеств из переменных env в пакетном файле.

Я мог бы получить subjobs для отправки мне своих узлов ... но это потребует внесения изменений в код subjobs, который я не могу сделать сам, и не может гарантировать в будущем. Я также изучал работу заданий из той же партии вместо -multiprog ... но этот вариант поставляется с собственной возможностью червей.

Таким образом, лучшим решением будет то, что можно сделать, не прибегая к этим двум вещам.

Есть ли у кого-нибудь опыт в такой ситуации и может предложить крючки для решения?

+0

Вы администратор кластера или обычного пользователя? – damienfrancois

+0

Я обычный пользователь. Я решил проблему на данный момент, «избегая» заданий зомби (подсказка: slurm слишком плохо обрабатывает сценарии оболочки в пакетном файле). Но, учитывая, что все еще существует риск зомби, поднимающего голову, меня будут интересовать проверенные решения для моей ежедневной службы «дворника». –

ответ

0

Я решил проблему, найдя решение задачи зомби.

Slurm не слишком хорошо обрабатывает сценарии оболочки в пакетном файле. Мы использовали их для «обхода» ограничения SSH 255. К сожалению, они представили теневые рабочие места, которые не могли быть остановлены призраком, и таким образом держали зомби в живых.

Как использовать мультиплеты с более чем 255 символами? Переменные. Вы можете экспортировать переменные в batchfile и использовать их в сценарии bash в файле мультиполяции. Это значительно снижает удобочитаемость (и, таким образом, тотальность) файлов мультиплетов. Но как только баш побежал, он исчез -> нет зомби.