У меня есть форматированный файл FASTA, который по существу является специальным текстовым файлом, содержащим много записей, один из которых выглядит ниже, который я присвоил именем «FASTA» "в R. Исходный файл был красный и форматированный, как показано ниже с помощью пакета seqinr в R.Как искать и изолировать атрибуты форматированного текста FASTA в R
FASTA<- structure(list(`tr|A1Z6G9|A1Z6G9_DROME` = structure("MSISASHPCGLNADGTATQYKESTATIQTSGLQSSPRSFLPEREDTLEYFIKFPKPSSKNEFVLAKDHDGEDSHVPIVMLLGWAGCQDRYLMKYSKIYEERGLITVRYTAPVDSLFWKRSEMIPIGEKILKLIQDMNFDAHPLIFHIFSNGGAYLYQHINLAVIKHKSPLQVRGVIFDSAPGERRIISLYRAITAIYGREKRCNCLAALVITITLSIMWFVEESISALKSLFVPSSPVRPSPFCDLKNEANRYPQLFLYSKGDIVIPYRDVEKFIRLRRDQGIQVSSVCFEDAEHVKIYTKYPKQYVQCVCNFIRNCMTIPPLKEAVNSEPSESVSRVNLKYD", name = "tr|A1Z6G9|A1Z6G9_DROME", Annot = ">tr|A1Z6G9|A1Z6G9_DROME CG8245 OS=Drosophila melanogaster GN=CG8245-RA PE=2 SV=1", class = "SeqFastaAA")))
Теперь, хотя этот формат позволяет мне получить имя индексы ввода/записи, когда я искать его с помощью grep, как показано ниже
grep("A1Z6G9_DROME", names(FASTA))
или изолировать его имя, используя
as.vector(sapply(names(attributes(FASTA)), function(x) attr(FASTA, x)))
Однако я тоже не могу Grep/RegExpr любой из текста/информации в разделах атрибутов или изолировать любые атрибуты, такие как текст, следующий имя = или ANNOT = секции. Кто-нибудь может мне с этим помочь?
Насколько я могу судить, когда googling read.fasta в R, руководство, относящееся к пакету seqinr, утверждает что-то вдоль строк аннотаций/атрибутов, которые игнорируются (я думаю), но эти разделы атрибутов содержат важную информацию о личность записи, от которой я отчаянно нуждаюсь! Я попробовал unlist или свернуть с помощью функции вставки, но они удаляют все необходимые мне атрибуты!