Для ясности я предлагаю здесь очень упрощенную иллюстрацию этого явления.
Скажите, что вы тренируете свою HMM с последовательностью данных (A-B-A-B). Предположим, вы используете HMM с 2 состояниями. Естественно, состояние 1 будет оптимизировано для представления A, а состояние 2 будет представлять B (или наоборот). Затем у вас есть новая последовательность (A-B-A-B). Вы хотите знать вероятность того, что эта последовательность имеет отношение к вашей HMM. Алгоритм Витерби найдет, что наиболее вероятная последовательность состояний (1-2-1-2), а алгоритм Баума-Уэлша даст этой последовательности высокий правдоподобие, как последовательность состояний и «значения» новой последовательности (при работе с непрерывными данными) четко соответствуют вашей тренировочной последовательности.
Скажите теперь, что вы тренируете HMM с 3 состояниями с той же последовательностью тренировки (A-B-A-B). Первоначальная кластеризация ваших данных, скорее всего, либо назначит 2 первых состояния HMM для представления символа A, а последний - символу B (или наоборот).
Итак, последовательность запросов (ABAB) может быть представлена в виде последовательности состояний (1-3-1-3) или (2-3-2-3) или (1-3-2-3) или (2-3-1-3)! Это означает, что для этого трехмерного состояния HMM две идентичные последовательности (A-B-A-B) могут иметь низкое сходство для HMM. Именно поэтому для любого HMM и любого набора данных, за пределами определенного количества состояний, производительность будет снижаться.
Вы можете оценить оптимальное количество состояний с использованием таких критериев, как Байесовский информационный критерий, Критерий информации о пользователе, критерий минимальной длины сообщения или если вы хотите получить идею размытия, кластеризация k-соединений в сочетании с процент объяснения объясняется. 3 первых критерия интересны, потому что они включают штрафный термин, который идет с числом параметров модели.
Надеюсь, это поможет! :)
Вы находите это удивительным? Только одно состояние является правильным, и теперь у вас есть больше возможностей выбора. Разве вы не ожидали, что проблема станет сложнее? – cel