2016-12-05 10 views
0

Я хотел бы использовать методы машинного обучения, такие как Naive Bayes и SVM в Weka, для идентификации видов с использованием данных последовательности ДНК. Проблема заключается в том, что я должен преобразовать последовательности ДНК в числовые векторы.Преобразование последовательностей ДНК в числовые векторы для R/Weka

МОЯ последовательности, как это:

------------------------------------ ------------ G ------------------------------------ ------ GGAGATG ------------------------------------------ GGAGATG ------------------------------------------ GGAGATG TTATTAATTCGAGCAGAATTAGGAAATCCTGGATCTTTAATTGGTGATG - -------------------------------------------- ATG CTATTAATTCGAGCTGAGCTAAGCCAGCCCGGGGCTCTGCTCGGAGATG - --------------------- TCAACCTGGGGCCCTACTCGGAGACG ---- TAATCCGAGCAGAATTAAGCCAACCTGGCGCCCTACTAGGGGGG CTATTAATTCGAGCTGAGCTAAGCCAGCCTGGGGCTCTGCTCGGAGATG TTATTAATTCGTTTTGAGTTAGGCACTGTTGGAGTTTTATTAG --- ATA

Как я могу это сделать? Любое предложение других программ для выполнения ML с ДНК-последовательностями помимо Weka?

ответ

0

Этот ответ использует R.

Вы можете использовать пакет R в Biostrings для этого.

Установите пакет первых: строка символов

source("http://www.bioconductor.org/biocLite.R") 
biocLite(c("Biostrings")) 

Преобразовать в DNAstring:

dna1 <- DNAString("------------------------------------------------G------------------------------------------GGAGATG") 

В качестве альтернативы,

dna2 <- DNAStringSet(c("ACGT", "GTCA", "GCTA")) 


alphabetFrequency(dna1) 
letterFrequency(dna1, "GC") 
.... 

Тогда (если необходимо), вы можете вызывать функции Weka из R , например Naive Bayes с NB <- make_Weka_classifier("weka/classifiers/bayes/NaiveBayes") ; NB(colx ~ . , data=mydata) или конвертировать ваши данные по вашему желанию и/или экспортировать в другие типы файлов, которые понимает Weka. На ум приходит функция foreign::write.arff(). Но я бы не использовал Уэку для этого.

Излишне говорить, что вы можете просто ввести эти последовательности в website performing a BLAST search и получить вероятных кандидатов вида.

Для CTATTAATTCGAGCTGAGCTAAGCCAGCCCGGGGCTCTGCTCGGAGATG я митохондриальной ДНК из "кварцитов рок ящерица" (Petrosaurus mearnsi) с 91% вероятностью.

 Смежные вопросы

  • Нет связанных вопросов^_^