Я пытаюсь манипулировать файлом Fastq. Это выглядит следующим образом:Извлечение идентификатора и последовательности из файла FASTQ
@HWUSI-EAS610:1:1:3:1131#0/1
GATGCTAAGCCCCTAAGGTCATAAGACTGNNANGTC
+
B<ABA<;[email protected][email protected]:[email protected]:1??9;>##########
@HWUSI-EAS610:1:1:3:888#0/1
GATAGGACCAAACATCTAACATCTTCCCGNNGNTTC
+
B9>>[email protected]:[email protected]####################
@HWUSI-EAS610:1:1:4:941#0/1
GCTTAGGAAGGAAGGAAGGAAGGGGTGTTCTGTAGT
+
BBBB:[email protected]@?BA/@BA;6>BBA8A6A<?A4?B=
...
...
...
@HWUSI-EAS610:1:1:7:1951#0/1
TGATAGATAAGTGCCTACCTGCTTACGTTACTCTCC
+
BB=A6A9>BBB9B;B:[email protected]@[email protected]:74:;8=>7
Мой ожидается выход:
@HWUSI-EAS610:1:1:3:1131#0/1
GACNTNNCAGTCTTATGACCTTAGGGGCTTAGCATC
@HWUSI-EAS610:1:1:3:888#0/1
GAANCNNCGGGAAGATGTTAGATGTTTGGTCCTATC
@HWUSI-EAS610:1:1:4:941#0/1
ACTACAGAACACCCCTTCCTTCCTTCCTTCCTAAGC
Таким образом, идентификатор линии являются те, которые начинаются с @HWUSI (т.е. @ HWUSI-EAS610: 1: 1: 7: 1951 # 0/1). После каждого идентификатора есть строка с ее последовательностью. Теперь я хотел бы получить файл только с каждым идентификатором и его соответствующей последовательностью, и последовательность должна быть обратной и дополнять. (А = Т, Т = А, С = С, С = С) С Sed можно получить всю последовательность реверсивной и комплементарной с помощью команды
sed -n '2~4p' MYFILE.fq | rev | tr ATCG TAGC
Как можно получить также соответствующий идентификатор?
Так что же ваш желаемый результат выглядит? –