Я хотел играть с геномных данных:Создать Dendogram из Геном
Species_A = ctnngtggaccgacaagaacagtttcgaatcggaagcttgcttaacgtag
Species_B = ctaagtggactgacaggaactgtttcgaatcggaagcttgcttaacgtag
Species_C = ctacgtggaccgacaagaacagtttcgactcggaagcttgcttaacgtag
Species_D = ctacgtggaccgacaagaacagtttcgactcggaagcttgcttaacgccg
Species_E = ctgtgtggancgacaaggacagttccaaatcggaagcttgcttaacacag
Я хотел создать дендрограммы на основе того, насколько близко эти организмы связаны друг с другом, учитывая последовательность генома выше. То, что я сделал первым было подсчитать число элементов а, C-х, Т х и г-х каждого вида, то я создал массив, а затем нанесены на дендрограммы:
gen_size1 = len(Species_A)
a1 = float(Species_A.count('a'))/float(gen_size1)
c1 = float(Species_A.count('c'))/float(gen_size1)
g1 = float(Species_A.count('g'))/float(gen_size1)
t1 = float(Species_A.count('t'))/float(gen_size1)
.
.
.
gen_size5 = len(Species_E)
a5 = float(Species_E.count('a'))/float(gen_size5)
c5 = float(Species_E.count('c'))/float(gen_size5)
g5 = float(Species_E.count('g'))/float(gen_size5)
t5 = float(Species_E.count('t'))/float(gen_size5)
my_genes = np.array([[a1,c1,g1,t1],[a2,c2,g2,t2],[a3,c3,g3,t3],[a4,c4,g4,t4],[a5,c5,g5,t5]])
plt.subplot(1,2,1)
plt.title("Mononucleotide")
linkage_matrix = linkage(my_genes, "single")
print linkage_matrix
dendrogram(linkage_matrix,truncate_mode='lastp', color_threshold=1, labels=[Species_A, Species_B, Species_C, Species_D, Species_E], show_leaf_counts=True)
plt.show()
Виды А и В являются вариантами одного и того же организма и I я ожидаю, что и то, и другое должно расходиться с общей формой клада корня, то же самое происходит с видами C и D, которые должны расходиться с другой общей кладой от корня, а затем с видами E, расходящимися от основного корня, потому что это не связано с видами A-D К сожалению, результат дендрограммы был смешан с видами A и E, расходящимися от общей клады, затем виды C, D и B в другой кладе (довольно перепутались).
Я читал об иерархической кластеризации для последовательности геномов, но я заметил, что он вмещает только 2-мерную систему, к сожалению, у меня есть 4 измерения, которые являются a, c, t и g. Любая другая стратегия для этого? Спасибо за помощь!
это потрясающе! Большое спасибо за это! –
Я хотел бы спросить, можем ли мы показать коэффициент кластеризации? –
@ TouyaD.Serdan Ответ слишком сложный для прошлого как комментарий. Можете ли вы задать новый вопрос, пожалуйста? – BioGeek