У меня есть 36-nt, как это: atcttgttcaatggccgatcXXXXgtcgacaatcaa
в файле fastq с XXXX - это разные штрих-коды. Я хочу искать штрих-код в файле в точном положении (от 21 до 24) и печатать последовательности с точностью до 3 несоответствий в последовательности, а не штрих-код.найти штрих-код ДНК с несоответствиями в последовательности
Например: У меня есть штрих-код: aacg
поиска, что штрих-код между положением 21 до 24 в fastq файл с разрешением 3 несовпадений в последовательности, как:
atcttgttcaatggccgatcaacggtcgacaatcaC# it has 1 mismatch
ttcttgttcaatggccgatcaacggtcgacaatcaC# it has 2 mismatch
tccttgttcaatggccgatcaacggtcgacaatcaC# it has 3 mismatch
Я пытался найти уникальные строки первого использования awk и искать несоответствия, но мне очень скучно искать и находить их.
awk 'NR%4==2' 1.fq |sort|uniq -c|awk '{print $1"\t"$2}' > out1.txt
Есть ли какой-либо быстрый способ найти?
спасибо.
Я в замешательстве. Что штрих-коды связаны с нуклеотидными последовательностями? – Kevin
Первоначально я искал штрих-коды для определенной позиции, и я получал очень низкий счет, и с 1 несоответствием в последовательности я получил высокий count.so, если я дам несоответствия в последовательности, я получу больше последовательностей (и я хочу попробовать upto 3) – abh
Итак, вы сканируете [штрих-коды] (http://en.wikipedia.org/wiki/Barcode)? Например, черно-белые полосатые узоры, которые используют кассиры супермаркетов, чтобы определить цену предметов? Потому что я до сих пор не знаю, как вы можете получить ДНК из штрих-кода. – Kevin