2017-01-27 10 views
2

Я анализирую данные последовательности ДНК/белка с помощью python и получил проблему. Вот таблица последовательности ДНК.суммировать перекрытие с python

enter image description here

Я хочу, чтобы проанализировать их как group1 и group2 являются парой. Например, AAATTT_TTTCCC или GGGCCC_GGAAA являются парами.

Данные этой последовательности иногда показывают ту же последовательность символов. Например, AAATTT появился три раза, а AGTC - дважды. Я хочу рассчитать эту последовательность перекрытия и суммировать, как показано ниже. Интересно, я должен использовать панды, но не знаю, как это сделать. Если бы кто-нибудь мог это сделать, я был бы очень благодарен вам.

enter image description here

+1

Таким образом, вы просто хотите, чтобы подсчитать, сколько раз появляется каждое уникальное значение Group1? Почему Group2 является столбцом в сводной таблице? – sundance

+0

О, я также хочу, чтобы последовательность group2, если последовательность Group1 такая же! –

ответ

1

Чтобы подсчитать количество вхождений каждого уникального значения в столбце:

# import pandas 
import pandas as pd 

# load data into Pandas dataframe 
df = pd.read_csv("data.csv") 

# get counts for each unique Group1 value 
df["Group1"].value_counts() 
+0

Это сработало! Спасибо!! –

+0

Вы также знаете, как показать Group2, как я уже говорил выше? –

+0

Этот однострочный файл должен сделать это: 'df.sort_values ​​(" Group1 ") [[" Group1 "," Group2 "]]. Join (df [" Group1 "]. Value_counts(). To_frame (" Group1 Count ") , on = "Group1") ' – sundance