я столкнулся со следующей проблемой:Слерма Zombiejob очистка для MULTIPROG использует
моего модуль должен администрировать количество рабочих мест на Слерму ведения кластера. Вся партия запускается с использованием --multiprog.
Один из них использует соединения rabbitMQ и, к сожалению, не может быть закончен изящно (не мое решение сделать). В результате эта подзадача оставит работу «зомби» всякий раз, когда вся партия будет закрыта slurm. Хуже того, он посылает пульс, поддерживающий соединения rabbitMQ, и так далее.
В сущности, мне нужно продолжать охоту на зомби после каждой работы. Я попытался сделать это с помощью простого эпилога (killall -9 -f), но, по-видимому, эпилог не получает полный нодлист, поэтому не может применять «превратить нежить» во все узлы, которые использовала эта работа.
Я также не получаю полный нодлист для всех вспомогательных подмножеств из переменных env в пакетном файле.
Я мог бы получить subjobs для отправки мне своих узлов ... но это потребует внесения изменений в код subjobs, который я не могу сделать сам, и не может гарантировать в будущем. Я также изучал работу заданий из той же партии вместо -multiprog ... но этот вариант поставляется с собственной возможностью червей.
Таким образом, лучшим решением будет то, что можно сделать, не прибегая к этим двум вещам.
Есть ли у кого-нибудь опыт в такой ситуации и может предложить крючки для решения?
Вы администратор кластера или обычного пользователя? – damienfrancois
Я обычный пользователь. Я решил проблему на данный момент, «избегая» заданий зомби (подсказка: slurm слишком плохо обрабатывает сценарии оболочки в пакетном файле). Но, учитывая, что все еще существует риск зомби, поднимающего голову, меня будут интересовать проверенные решения для моей ежедневной службы «дворника». –