2014-01-21 6 views
0

Я анализирую некоторые данные ChIP-seq, и мне удалось получить элемент последовательности, связанный с каждой сколотой хромосомной области, используя браузер генома. После анализа и поиска конкретных мотивов, я в конечном итоге с выходом, как следующее:.Как получить гены refseq UCSC в R bioconductor

head (chr.reg) 
[,1]      
[1,] "chr1:181030981-181032670" 
[2,] "chr3:55709147-55709901" 
[3,] "chr3:119813410-119814934" 
[4,] "chr4:185201060-185205420" 
[5,] "chr4:39610956-39611545" 
[6,] "chr6:126253238-126253636" 

Каждый из этих хромосомных участков содержат фактор транскрипции мотив, который я заинтересован в

Мой вопрос следующий: Есть ли способ, с помощью которого я могу получить имя гена refseq, связанное с каждой из этих областей? Я пробовал смотреть в пакеты биокондукторов, но я не мог найти ни одного или, может быть, я просто упустил это! кто-нибудь знает о конкретном пакете, который может помочь мне решить эту проблему?

Спасибо заранее :)

ответ

1

Я считаю, что ответ лежит в ChIPpeakAnno пакете. Вот пример кода:

require(ChIPpeakAnno) 
    peak <- RangedData(space="chr4", IRanges(39610956, 39611545))#chromosome start, end 
    data (TSS.human.GRCh37) 
    ap <- annotatePeakInBatch(peak,Annotation=TSS.human.GRCh37 , PeakLocForDistance="end") 

Вывод будет выглядеть следующим образом:

> ap 

RangedData with 1 row and 9 value columns across 1 space 
       space    ranges |  peak  strand 
       <factor>   <IRanges> | <character> <character> 
1 ENSG00000163683  4 [39610956, 39611545] |   1   - 
         feature start_position end_position insideFeature 
        <character>  <numeric> <numeric> <character> 
1 ENSG00000163683 ENSG00000163683  39552535  39640513  inside 
       distancetoFeature shortestDistance fromOverlappingOrNearest 
         <numeric>  <numeric>    <character> 
1 ENSG00000163683    28968   28968    NearestStart 

Чтобы получить RefSeq или символ гена для Ensembl идентификаторами:

require (org.Hs.eg.db) 
gene.anno <- select(org.Hs.eg.db, keys= ap$feature,keytype = "ENSEMBL", columns=c("ENSEMBL",   
"SYMBOL")) 

Извлеченный ген:

> gene.anno 
     ENSEMBL  ENTREZID SYMBOL  
1 ENSG00000163683 201895 SMIM14