Я пытаюсь получить последовательность белка из NCBI через номер идентификатора гена (GI), используя функцию Entrez.fetch()
Biopython.Как получить определенную последовательность белка, используя entrez.efetch?
proteina = Entrez.efetch(db="protein", id= gi, rettype="gb", retmode="xml").
Затем я прочитал данные с помощью:
proteinaXML = Entrez.read(proteina).
Я могу печатать результаты, однако я не знаю, как получить последовательность белка в одиночку.
Я могу достичь белка вручную после отображения результата. Или я могу проверить дерево XML с помощью:
proteinaXML[0]["GBSeq_feature-table"][2]["GBFeature_quals"][6]['GBQualifier_value'].
Однако, в зависимости от ГИ белка заявляется, XML дерево может отличаться. Это затрудняет автоматизацию этого процесса.
Мой вопрос: Можно ли получить только последовательность белка, а не весь XML-дерево? Или альтернативно: как я могу извлечь последовательность белка из файла XML, учитывая, что структура файлов XML может отличаться от белка к белку?
Благодаря