2014-10-05 5 views
0

Я создал бабочку индексные файлы с помощью бабочку-индекса в Баш скрипт следующим образом:TopHat не удалось найти индекс Боути файлы, даже если правильный путь

bowtie-build $FA_FILE $OUTPUT_BASE 

(сценарий можно найти здесь: https://github.com/kennethphough/bioinformatics/blob/master/sge/sge_build_index)

Я хочу, чтобы каждый узел моего кластера выравнивал мои файлы последовательности с хромосомой, а не ко всему геному. Поэтому теоретически, если я запускаю экземпляр tophat для каждой хромосомы для одного и того же файла последовательности на каждом узле, он должен быть быстрее, чем запустить tophat на одном узле для всего генома.

Я убедился, что расположение моих Боути файлов индекса было экспортировано примерно так:

export BOWTIE_INDEXES="$(dirname ${EBWT})/" 

, а затем выполнить Tophat так:

tophat -p 4 -G $GTF -o $OBASE $Chr $FASTQ 

$GTF содержит этот путь к файлу аннотаций, $Chr содержит имя файла индекса (исключая расширение файла .ebwt), а $FASTQ содержит путь к файлу чтения последовательности.

(сценарий можно найти здесь: https://github.com/kennethphough/bioinformatics/blob/master/sge/sge_tophat)

Когда я запускаю сценарий, я получаю сообщение об ошибке сказав индекс Боути не может быть foudn. Отрывок ниже:

[Sun Oct 5 15:08:48 2014] Beginning TopHat run (v1.1.2) 
----------------------------------------------- 
[Sun Oct 5 15:08:48 2014] Preparing output location /home/kennethphough/GSE58365/fast/chr11_gl000202_random.1/ 
[Sun Oct 5 15:08:48 2014] Checking for Bowtie index files 
Error: Could not find Bowtie index files /home/kennethphough/genome/hg19/chr11_gl000202_random.1.* 

Индексный файл Боути в вопросе для вышеуказанной ошибки chr11_gl000202_random.1.ebwt, который я подтвердил, что он там. Любое руководство по поводу того, что происходит неправильно, будет с благодарностью оценено.

Боутите версию 0.12.7 Tophat версии 1.1.2

+0

Ссылки на ваш вопрос мертвы и, следовательно, бесполезны для других пользователей. – Stefan

+0

Извините, фиксированные ссылки – pandoraEudora

+0

Я рад, что вы разобрались с вашими проблемами, но вам стоит подумать о том, чтобы получить новейшие версии этих программных продуктов ... (например, bowtie до 1.1.1, а tophat - 2.0.13) – bdeonovic

ответ

0

Проблема в том, что есть более чем один файл для индекса бабочки. Таким образом, для примера выше chr11_gl000202_random имеет:

chr11_gl000202_random.1.ebwt 
chr11_gl000202_random.2.ebwt 
chr11_gl000202_random.3.ebwt 
chr11_gl000202_random.rev.1.ebwt 
chr11_gl000202_random.rev.1.ebwt 

так вместо прохождения по имени файла без расширения мне нужно, чтобы получить имя последовательности хромосом, как так:

Chr=`echo "$FNAME" | awk -F. '{print $1}'` 

Я обновляю свой сценарий в github, чтобы отразить изменения.