2015-04-15 4 views
0

Я хочу сравнить и получить перекрывающиеся области в трех разных наборах данных. Сравнение должно также основываться на CNA.найти перекрывающиеся геномные координаты в более чем двух наборах данных

data1 
     chr start   end  CNA 
     1 170900001 171500001 loss 
     1 11840001 19420001 loss 
     1 60300001 62700001 gain 
     1 25520001 25820001 gain 

data2 
    chr start  end  CNA 
    1 170940001 171500001 gain 
    1 60300001 62700001 gain 
    1 25520001 25840001 gain 
    1 119860001 123040001 loss 
    1 171500001 171580001 gain 
    1 79240001 84420001 gain 


data 3 
chr start  end  CNA 
1 170950001 171500001 gain 
1 60300001 62700001 loss 
1 25530001 25840001 gain 

ожидается выход

chr start  end  CNA 
    1 170950001 171500001 gain 
    1 25530001 25840001 gain 

Я использовал GenomicRanges для сравнения. Сначала я попытался сортировать геномные регионы на основе «усиления» и «потери». Затем я использовал findOverlaps между каждой группой отдельно, например. df1 < - findOverlaps (data1, data2), а затем findOverlaps (df1, data3). Я знаю, что есть варианты инструментов для постели, но было бы здорово узнать, есть ли альтернативные методы получения желаемого результата с помощью GenomicRanges?

+0

Если вы ищете экспертную помощь с GenomicRanges, попробуйте задать свой вопрос вместо этого на [сайте поддержки Bioconductor] (https://support.bioconductor.org). Я думаю, что ответ - это то, что я думаю, что вы делаете - 'findOverlaps()' для data1 и data2, а затем результат этого и data3. –

+0

Выполняет ли [этот SO ответ] (http://stackoverflow.com/questions/23331475/r-overlap-multiple-granges-with-findoverlaps) решить вашу проблему? – eipi10

ответ

0

сделав ask a similar question several days ago. Вы не упоминаете, работал ли вам GenomicRanges или нет. Я обнаружил, что библиотека Иранге работала намного лучше для меня. Может быть, мой подход может быть полезен для вас.

+0

Я пытался с GenomicRanges пересекаться, который работал отлично для меня. – beginner