2016-08-19 6 views
0

У меня есть список символов генов, которые представляют собой пересечение двух наборов данных с высокой пропускной способностью. Мне интересно делать какие-то аннотации и кластеризации GO, но для этого мне нужно преобразовать эти символы генов в номера доступа UniProt. Мой вопрос: какой лучший способ сделать это с помощью Python?Преобразование списка символов генов в номера доступа UniProt с использованием Python

Например, ген «Трансформирующий фактор роста бета-1» называется «TGFB1», а его регистрационный номер «P01137». Я ищу функцию/класс/модуль/пакет, который позволит мне ввести TGFB1 в качестве аргумента и вернуть мне P01137. Может ли кто-нибудь дать мне несколько советов? Спасибо

+1

словарь Python – Andrew

ответ

1

Получите некоторое сопоставление от имени гена до идентификатора PDB, как этот JSON: http://www.rcsb.org/pdb/browse/homo_sapiens_download.jsp?rows=100000&page=1&sidx=id&sord=desc, сохраняя его, например, как «mapping.json».

Затем использовать эти данные, чтобы получить отображение:

import json 


with open("mapping.json") as mapping: 
    map_dict = json.load(mapping) 

data = map_dict["rows"] 

def get_uniprot(gene_id): 
    for row in map_dict["rows"]: 
     if row["cell"][1] == gene_id: 
      return row["cell"][4] 

print(get_uniprot("TGFB1")) 

 Смежные вопросы

  • Нет связанных вопросов^_^