У меня есть файл fastq с более чем 100 миллионов просмотров в нем и последовательности генома 10000 длинойпоиск последовательности в геноме с несоответствием
я хочу, чтобы вынуть последовательности из файла fastq и поиск в геноме последовательность с разрешением 3 несовпадений
Я пытался таким образом, используя AWK я получил последовательность из fastq файла:
1.fq (несколько строк)
@ DH1DQQN1: 269: C1UKCACXX: 1: 1101: 1207 : 2171 1: N: 0:? TTAGGC NATCCCCATCCTCTGCTTGCTTTTCGGGATATGTTGTAGGATTCTCAGC
+
1 = ADBDDHD, F> GF @ FFEFGGGIAEEI D9DDHHIGAAF: BG39 BB
@ DH1DQQN1: 269: C1UKCACXX: 1: 1101: 1095: 2217 1: N: 0: TTAGGC TAGGATTTCAAATGGGTCGAGGTGGTCCGTTAGGTATAGGGGCAACAGG
+
?? AABDD4C: DDDI + С: С3 @: C): 1 *):?) ####### #########
$ awk 'NR% 4 == 2' 1.FQ
NATCCCCATCCTCTGCTTGCTTTTCGGGATATGTTGTAGGATTCTCAGC TAGGATTTCAAATGGGTCGAGGTGGTCCGTTAGGTATAGGGGCAACAGG
У меня есть все последовательности в файле, теперь я хочу взять каждую строку последовательности и поиска в последовательности генома с разрешением 3 несовпадений и если он находит напечатать последовательности
пример:
генома файл последовательности:
GGGGAGGAATATGATTTACAGTTTATTTTTCAACTGTGCAAAATAACCTTAACTGCAGACGTTATGACATACATACATTCTATGAATTCCACTATTTTGGAGGACTGGAATTTTGGTCTACAACCTCCCCCAGGAGGCACACTAGAAGATACTTATAGGTTTGTAACCCAGGCAATTGCTTGTCAAAAACATACA
Последовательность поиска файла:
GGGGAGGAATATGAT
GGGGAGGAATATGAA
GGGGAGGAATATGCC
TCAAAAACATAGG
TCAAAAACATGGG
выходного файла:
GGGGAGGAATATGAT 0 # 0 Несоответствие точной последовательности
GGGGAGGAATATGAA 1 # 1 Несоответствие
GGGGAGGAATATGCC 2 # 2 Несоответствие
TCAAAAACATAGG 2 # 2 несовпадения
TCAAAAACATGGG 3 # 3 несовпадение
Сколько поисковых последовательностей (и являются ли примеры длиной вы показываете представителя?) – ysth
, что просто пример, чтобы показать, что он отображает все, где в последовательности (с допуском несоответствий). В моем фактическом файле есть приблизительная длина последовательностей (от От 25 до 100) @ysth – abh
В моем файле поисковых последовательностей содержится более 100 миллионов строк, которые извлекали их с помощью awk из файла fastq (показано выше) @ysth – abh