Я хочу использовать AMOScmp для анализа световых парных конечных данных. AMOScmp требует того же количества парных файлов для сборки файла .afg. Исходные файлы fq сопряжены. После того, как я передаю файлы fq отдельно по качеству, дублированным последовательностям и контролю ДНК человека, я обнаружил, что файлы парного конца fa имеют разное количество чтений. Я хочу удалить неспаренные чтения из парных конечных чтений, чтобы получить два файла fa с одинаковым количеством чтений. Кто-нибудь имеет скрипт или знает, какое программное обеспечение поможет мне решить проблему?Необходим скрипт или программное обеспечение для удаления неспаренных чтений из парных концевых чтений
ответ
Используйте утилиту trimmomatic для этого. Это подрезки программа качества, которая будет выводить 4 файла: R1_paired, R2_paired, R1_singles, R2_singles
Если вам просто нужно пар, которые будут согласованы, то просто запустить его с одним атрибутом качества, как:
MINLEN : 20
ПРИМЕЧАНИЯ: вы должны знать, что если вам нужно перетасовать два спаренных конечные файлы позже, четность последовательности между двумя «спаренными» файлами не будет 1: 1, после некоторого числа операций чтения. Я подозреваю, что это связано с резьбой, которую имеет триммоматика. Если вас это беспокоит, обязательно установите потоки в 1. Не уверен, что это решение, поэтому проверьте результаты, просмотрев случайные строки в обоих файлах. Выберите строки из начала, середины и конца обоих файлов. Затем сравните идентификационные строки последовательности:
head -n 1000 R1_paired.fastq | tail -n 4
head -n 1000 R2_paired.fastq | Хвост -n 4
Ниже приведен пример использования двух спаренных файлов конечных FASTQ (Примечание: это предполагает, что входные файлы называются R1.fastq и R2.fastq, и что trimmomatic-0.30.jar находится в локальной каталог, в противном случае вам нужно будет поставить путь для Java, чтобы следовать)
Java -jar ./trimmomatic-0.30.jar PE -threads 1 -phred33 R1.fastq R2.fastq R1_paired.fastq R1_singles.fastq R2_paired .fastq R2_singles.fastq MINLEN: 20
Каков формат прочитанных идентификаторов? Например, если парные считывают с конца фрагмента определенной последовательности в/1 и/2, причем предыдущие символы идентичны между двумя? Если это так, это может облегчить дело. –