У меня есть два файла «BED». Каждый из них задает набор областей в геноме (начальный и конечный столбцы), и каждый из этих файлов указывает особенности для данных геномных областей (например, NRL, а другой возвращает «возможность отображения» этих областей)слияние файлов генома на основе перекрытия
они являются организована следующим образом:
head(file1)
chr start end mappability
chr1 3000066 3000100 1.0000
chr1 3000100 3000130 0.5000
chr1 3000130 3000199 0.0625
chr1 3000199 3000277 0.0500
head(file2)
chr start end NRL
chr1 3000000 3000067 250
chr1 3000067 3000079 300
chr1 3000079 3000084 200
chr1 3000084 3000099 130
проблема в том, что эти файлы равнодействующая различных экспериментов и не все регионы, которые задокументированы между двумя файлами пересекаться ... поэтому мне нужно, чтобы выяснить, какие области перекрываются. ..
Моя попытка до сих пор:
file1-read.table("file1.txt", sep='\t', header = F)
file2=read.table("file2.txt", sep='\t', header = F)
overlapping_regions<-function(file1, file2){
for(i in file1[,2]){
x<-seq(file1[i,2], file1[i,3])
for(j in file1[,2]){
y<-seq(file2[j,2], file2[j,3])
if(setequal(union(x, y), c(setdiff(x, y), intersect(x, y), setdiff(y, x)))){
####GET OVERLAP
}
}
}
}
Первая проблема с этой стратегии является то, что я получаю вышеуказанную ошибку:
Error in seq.default(file1[i, 2], file1[i, 3]) :
«от» не может быть NA, NaN или бесконечная
Во-вторых, я не уверен, что если стратегия правильная, поскольку я хочу, чтобы каждая строка каждого файла сравнивалась с другой, чтобы найти ANY регионов, которые перекрываются ...
Так что мне интересно, может ли кто-нибудь помочь мне с Rs cript, чтобы разобрать эти файлы, чтобы я мог создать новый файл, который содержит перекрывающиеся области между каждым столбцом начала и конца, и сохранить функции, относящиеся к каждому из исходных файлов ...
Так что я хотел бы получить свой вывод чтобы быть что-то вроде этого:
head(files_merged)
chr overlap mappability NRL GC_content more_features......
chr1 start-end 1.0000 250
chr1 start-end 0.5000 300
chr1 start-end 0.0625 200
Я спрашиваю это с намерением попытки применить алгоритмы машинного обучения, чтобы попытаться предсказать геномные особенности.
Я вижу (очевидно), как мой план ошибочен тем, что области, указанные в одном файле, могут быть намного меньше, чем в другом. Следовательно, что я также открываю для предложений относительно лучшего способа сделать это?
oh awesome thank you Я не понял, что это было отвечено – Chris