Мне интересно найти ngrams
строки x= "A T G C C G C G T"
. Я использую пакет ngram
R
, чтобы получить ngrams
. Я использую следующие строки, чтобы выполнить свою работу.nграммы не в правильном порядке
library(ngram)
ng <- ngram(x,n=2)
ngrams_out = get.ngrams(ng)
ngrams_final <- gsub(" ", "",ngrams_out , fixed = TRUE)
# "CG" "TG" "AT" "GC" "CC" "GT" ## ngrams
Это дает все ngrams
указанной строки без повторения, но я удивлен, что ngrams
не в правильном порядке. Порядок очень важен для отслеживания позиции ngram
. Правильный порядок ngrams
- "AT","TG","GC","CC","CG","GC","CG","GT"
с повторением, откуда я могу четко определить положение конкретного ngram
в данной строке.
Как насчет 'x =" ATGCCGCGT "' –
'gsub (" \\ B "," ", x, perl = T)", тогда примените вышеописанное на этом .. –
Что делать, если я хочу иметь комбинацию из трех или 4 или более в то время, как «ATG, TGC, GCC, CCG, CGC, GCG, CGT' или« ATGC, TGCC, GCCG, CCGC, CGCG, GCGT' –