2015-01-31 7 views
1

Я использую qsub для отправки задания в кластер SGE. В файле задания, следующие определяются:не может chdir в/path/to/job_submit_dir/в кластере SGE

#!/bin/bash 
    # 
    #$ -V 
    #$ -cwd 
    #$ -j y 
    #$ -S /bin/bash 
    # 

-cwd указывает, что задание будет выполняться в директории, где находится файл задания является. Все файлы заданий содержат настройки заданий выше.

Некоторые из работ представлены и могут работать правильно, но некоторые из них представлены и статус от qstat является Eqw, а при использовании qstat -j job_id, чтобы показать состояние детали, он показывает:

failed changing into working directory because: 
    error: can't chdir to /path/to/job_submit_dir 

Но иногда я захожу в каталог и повторно отправляю задание, похоже, работает.

Я искал в Google, и this site предоставил решение, но оно не работает для моих настроек.

Может кто-нибудь дать совет, пожалуйста?

+0

Это всегда происходит на одном и том же узле выполнения? Если это так, у вас есть SSH-доступ к этому узлу? Если это так, войдите в систему, чтобы узнать, можете ли вы получить доступ к этому каталогу. – Vince

+1

Кроме того, возможно, это ваша проблема: https://www.icts.uiowa.edu/confluence/display/ICTSit/Best+practices+for+high+throughput+jobs – Vince

+0

Привет, @Винте, спасибо за ответ! s Я обычный пользователь и могу отправлять задания на консольный/управляющий узел, который в основном используется для отправки заданий. Но я не мог использовать SSH для вычислительных узлов. Возможно, это необходимо для SSH друг с другом среди этих вычислительных узлов, или программы MPI могут работать с ошибкой. Другим моментом является то, что диск хранения независим от консольного узла и вычислительных узлов, который монтируется во всех этих узлах. Таким образом, все задания/задачи посещают только один монтируемый диск, возможно, диском хранения является общий ресурс NFS в кластере. – mining

ответ

1

Представляется, что для этого экземпляра из этих вопросов ошибка может быть из-за чрезмерной записи в сеть, установленный для хранения:

https://www.icts.uiowa.edu/confluence/display/ICTSit/Best+practices+for+high+throughput+jobs

Чтобы решить попытку перенаправить вывод в локальном запоминающем устройстве на каждом узле выполнения или /dev/null.

+0

большое спасибо! Проблемы пропускной способности и связи всегда являются ключом к кластерной системе. Спасибо за вашу любезную ссылку! – mining

+0

Да, когда я добавляю '-j y -o/dev/null' в параметр отправки, но проблема все еще существует. И когда я использую 'qstat' для отображения статуса задания, он показывает:' stdout_path_list: NONE: NONE:/dev/null', это означает, что SGE выведет stdout в '/ dev/null'. Но он все еще показывает проблему, описанную в сообщении. Другая проблема заключается в том, что каждый узел выполнения монтирует узел хранения как NFS-диск. Я не мог перенаправить вывод в локальное хранилище на каждом узле выполнения. – mining

+0

Является ли сценарий выше фактического скрипта, который вы используете, или пример? Если нет, отправьте точный скрипт, который вы используете, а также пример программы, выполняемой скриптом, который воспроизводит ошибку. – Vince