Я анализирую данные последовательности ДНК/белка с помощью python и получил проблему. Вот таблица последовательности ДНК.суммировать перекрытие с python
Я хочу, чтобы проанализировать их как group1 и group2 являются парой. Например, AAATTT_TTTCCC или GGGCCC_GGAAA являются парами.
Данные этой последовательности иногда показывают ту же последовательность символов. Например, AAATTT появился три раза, а AGTC - дважды. Я хочу рассчитать эту последовательность перекрытия и суммировать, как показано ниже. Интересно, я должен использовать панды, но не знаю, как это сделать. Если бы кто-нибудь мог это сделать, я был бы очень благодарен вам.
Таким образом, вы просто хотите, чтобы подсчитать, сколько раз появляется каждое уникальное значение Group1? Почему Group2 является столбцом в сводной таблице? – sundance
О, я также хочу, чтобы последовательность group2, если последовательность Group1 такая же! –