2015-05-11 2 views
0

Я запускаю исполняемый файл в Condor, который в основном обрабатывает входное изображение и сохраняет двоичное изображение в данной папке. Я использую этот код в 213 изображениях.Работа, убиваемая на Condor Enviroment

Мои кондора содержимое файла конфигурации являются следующие:

universe  = vanilla 
executable = /datasets/me/output_cpen_database/source_codes_techniques/test/vole 
arguments = cmfd -I /datasets/me/cpen_database/scale1/$(Process)/$(Process).png -O /datasets/me/output_cpen_database/scale1/dct/$(Process)/ --numThreads 10 --chan GRAY --featvec DCT --blockSize 16 --minDistEuclidian 50 --kdsort --fastsats --minSameShift 1000 --markRegions --useOrig --writePost --writeMatrix 
initialdir = /datasets/me/output_cpen_database/source_codes_techniques/test 
requirements = (OpSysAndVer == "Ubuntu12") 
request_cpus = 5 
request_memory = 20000 
output  = logs/output-$(Process).log 
error  = logs/error-$(Process).log 
log   = logs/log-$(Process).log 
Notification = Complete 
Notify_User = [email protected] 
Queue 214 

Некоторые изображения обрабатываются в порядке, но в некоторых случаях я получаю следующее сообщение об ошибке в моем почтовом ящике:

Condor job 1273.47 
/datasets/me/output_cpen_database/source_codes_techniques/test/vole cmfd -I /datasets/me/cpen_database/scale1/47/47.png -O /datasets/me/output_cpen_database/scale1/dct/47/ --numThreads 10 --chan GRAY --featvec DCT --blockSize 16 --minDistEuclidian 50 --kdsort --fastsats --minSameShift 1000 --markRegions --useOrig --writePost --writeMatrix 
died on signal 9 (Killed) 

Я думаю, если это происходит из-за нехватки памяти, но размер этого изображения (с именем 47) не превышает 20 МБ (на самом деле он имеет 16,7 МБ).

Как я уже говорил, кондор запускает этот исполняемый файл для некоторых других изображений.

Должен ли я увеличить request_memory в своем файле конфигурации? что здесь происходит?

ответ

0

Обычно работа, которая умирает в сигнале 9, означает проблемы с некоторыми из разделяемых библиотек, требуемые вашим исполняемым файлом. То, что я хотел бы проверить, заключается в том, умирают ли все задания на конкретном хосте. Если это так, вы можете запустить код вручную и посмотреть, есть ли у вас недостающая ошибка общей библиотеки.