2012-11-02 5 views
1

Я хочу использовать AMOScmp для анализа световых парных конечных данных. AMOScmp требует того же количества парных файлов для сборки файла .afg. Исходные файлы fq сопряжены. После того, как я передаю файлы fq отдельно по качеству, дублированным последовательностям и контролю ДНК человека, я обнаружил, что файлы парного конца fa имеют разное количество чтений. Я хочу удалить неспаренные чтения из парных конечных чтений, чтобы получить два файла fa с одинаковым количеством чтений. Кто-нибудь имеет скрипт или знает, какое программное обеспечение поможет мне решить проблему?Необходим скрипт или программное обеспечение для удаления неспаренных чтений из парных концевых чтений

+0

Каков формат прочитанных идентификаторов? Например, если парные считывают с конца фрагмента определенной последовательности в/1 и/2, причем предыдущие символы идентичны между двумя? Если это так, это может облегчить дело. –

ответ

1

Используйте утилиту trimmomatic для этого. Это подрезки программа качества, которая будет выводить 4 файла: R1_paired, R2_paired, R1_singles, R2_singles

Если вам просто нужно пар, которые будут согласованы, то просто запустить его с одним атрибутом качества, как:

MINLEN : 20

ПРИМЕЧАНИЯ: вы должны знать, что если вам нужно перетасовать два спаренных конечные файлы позже, четность последовательности между двумя «спаренными» файлами не будет 1: 1, после некоторого числа операций чтения. Я подозреваю, что это связано с резьбой, которую имеет триммоматика. Если вас это беспокоит, обязательно установите потоки в 1. Не уверен, что это решение, поэтому проверьте результаты, просмотрев случайные строки в обоих файлах. Выберите строки из начала, середины и конца обоих файлов. Затем сравните идентификационные строки последовательности:

head -n 1000 R1_paired.fastq | tail -n 4

head -n 1000 R2_paired.fastq | Хвост -n 4

Ниже приведен пример использования двух спаренных файлов конечных FASTQ (Примечание: это предполагает, что входные файлы называются R1.fastq и R2.fastq, и что trimmomatic-0.30.jar находится в локальной каталог, в противном случае вам нужно будет поставить путь для Java, чтобы следовать)

Java -jar ./trimmomatic-0.30.jar PE -threads 1 -phred33 R1.fastq R2.fastq R1_paired.fastq R1_singles.fastq R2_paired .fastq R2_singles.fastq MINLEN: 20