Я использую qsub
для отправки задания в кластер SGE. В файле задания, следующие определяются:не может chdir в/path/to/job_submit_dir/в кластере SGE
#!/bin/bash
#
#$ -V
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
-cwd
указывает, что задание будет выполняться в директории, где находится файл задания является. Все файлы заданий содержат настройки заданий выше.
Некоторые из работ представлены и могут работать правильно, но некоторые из них представлены и статус от qstat
является Eqw
, а при использовании qstat -j job_id
, чтобы показать состояние детали, он показывает:
failed changing into working directory because:
error: can't chdir to /path/to/job_submit_dir
Но иногда я захожу в каталог и повторно отправляю задание, похоже, работает.
Я искал в Google, и this site предоставил решение, но оно не работает для моих настроек.
Может кто-нибудь дать совет, пожалуйста?
Это всегда происходит на одном и том же узле выполнения? Если это так, у вас есть SSH-доступ к этому узлу? Если это так, войдите в систему, чтобы узнать, можете ли вы получить доступ к этому каталогу. – Vince
Кроме того, возможно, это ваша проблема: https://www.icts.uiowa.edu/confluence/display/ICTSit/Best+practices+for+high+throughput+jobs – Vince
Привет, @Винте, спасибо за ответ! s Я обычный пользователь и могу отправлять задания на консольный/управляющий узел, который в основном используется для отправки заданий. Но я не мог использовать SSH для вычислительных узлов. Возможно, это необходимо для SSH друг с другом среди этих вычислительных узлов, или программы MPI могут работать с ошибкой. Другим моментом является то, что диск хранения независим от консольного узла и вычислительных узлов, который монтируется во всех этих узлах. Таким образом, все задания/задачи посещают только один монтируемый диск, возможно, диском хранения является общий ресурс NFS в кластере. – mining