2

Я хочу использовать HMM (вперед-назад модель) для прогнозирования вторичной структуры белка.алгоритм с обратной обратной связью для прогнозирования вторичной структуры

В основном, используется три состояния модели: государства = {Н = альфа-спирали, В = бета-лист, С = катушки}

и каждое состояние имеет вероятность эмиссии PMF 1-на-20 (для 20 аминокислот).

После использования «обучающего набора» последовательностей в модели с обратной обратной связью максимизация ожидания сходится для матрицы оптимальных переходов (3 на 3 между тремя состояниями) и вероятности излучения pmf для каждого состояния.

Кто-нибудь знает о наборе данных (желательно очень малых) последовательностей, для которых определяются «правильные» значения матрицы перехода и вероятности эмиссии. Я хотел бы использовать этот набор данных в Excel, чтобы применить алгоритм прямого обратного хода и установить свою уверенность, чтобы определить, могу ли я получить тот же результат.

А затем перейти к чему-то менее примитивным, чем Excel: о)

+0

вы также можете спросить о биостарах: http://www.biostars.org – Pierre

+0

Пьер, спасибо за совет. Я сделаю это в тоже время. –

ответ

0

Лучший способ сделать это, вероятно, производить свои собственные смоделированные данные из дистрибутивов решают. Затем вы запускаете свою программу, чтобы увидеть, сходится ли оценка параметров к вашим известным параметрам.

В вашем случае это будет связано с записью цепи Маркова, которая изменяется от состояния к штату с известной и произвольной вероятностью (например, P (Helix to Chain) = 0,001), а затем испускает аминокислоту с вероятностью (для например, P (метионин) = 0,11). Для каждого шага распечатайте состояние и эмиссию. Затем вы можете наблюдать, как ваши задние вероятности приближаются к состоянию для каждого сайта.

Вы можете сделать их произвольными, как хотите, потому что, когда вы запускаете свой HMM, вы должны сходиться в правильных дистрибутивах.

Удачи вам!