2

Я построил пару скрытых марковских моделей, используя алгоритм Баума-Уэлша для все большего числа состояний. Я заметил, что после 8 состояний оценка проверки снижается более чем на 8 состояний. Поэтому я подумал, возможно ли, что точность Скрытой марковской модели может уменьшаться с увеличением числа состояний из-за какой-то переобучения?Скрытая марковская модель. Возможно ли, что точность уменьшается по мере увеличения числа состояний?

Заранее благодарен!

+0

Вы находите это удивительным? Только одно состояние является правильным, и теперь у вас есть больше возможностей выбора. Разве вы не ожидали, что проблема станет сложнее? – cel

ответ

3

Для ясности я предлагаю здесь очень упрощенную иллюстрацию этого явления.

Скажите, что вы тренируете свою HMM с последовательностью данных (A-B-A-B). Предположим, вы используете HMM с 2 состояниями. Естественно, состояние 1 будет оптимизировано для представления A, а состояние 2 будет представлять B (или наоборот). Затем у вас есть новая последовательность (A-B-A-B). Вы хотите знать вероятность того, что эта последовательность имеет отношение к вашей HMM. Алгоритм Витерби найдет, что наиболее вероятная последовательность состояний (1-2-1-2), а алгоритм Баума-Уэлша даст этой последовательности высокий правдоподобие, как последовательность состояний и «значения» новой последовательности (при работе с непрерывными данными) четко соответствуют вашей тренировочной последовательности.

Скажите теперь, что вы тренируете HMM с 3 состояниями с той же последовательностью тренировки (A-B-A-B). Первоначальная кластеризация ваших данных, скорее всего, либо назначит 2 первых состояния HMM для представления символа A, а последний - символу B (или наоборот).

Итак, последовательность запросов (ABAB) может быть представлена ​​в виде последовательности состояний (1-3-1-3) или (2-3-2-3) или (1-3-2-3) или (2-3-1-3)! Это означает, что для этого трехмерного состояния HMM две идентичные последовательности (A-B-A-B) могут иметь низкое сходство для HMM. Именно поэтому для любого HMM и любого набора данных, за пределами определенного количества состояний, производительность будет снижаться.

Вы можете оценить оптимальное количество состояний с использованием таких критериев, как Байесовский информационный критерий, Критерий информации о пользователе, критерий минимальной длины сообщения или если вы хотите получить идею размытия, кластеризация k-соединений в сочетании с процент объяснения объясняется. 3 первых критерия интересны, потому что они включают штрафный термин, который идет с числом параметров модели.

Надеюсь, это поможет! :)