2017-02-18 30 views
1

Я пытаюсь реализовать модуль распознавания речи, используя Mel Частотный кепстральный коэффициент (MFCC) и динамическое деформирование времени (DTW).Как применять коэффициенты MFCC для DTW

Я разделяю сигнал (x (n)) на кадры с 25 мс с перекрытием 10 мс и нахожу параметры MFCC для каждого кадра. Мое главное сомнение в том, как я могу выполнить DTW в этом сценарии. Предположим, что существуют M-кадры и коэффициенты N (13) MFCC.

Итак, у меня есть матрица M x N. Теперь, как я должен вычислять DTW?

ответ

2

Матрица MxN может быть представлена ​​в виде длины 1x-вектора MxN.

так, вы pattern1

p1[M*N], len=i, 'silence-HHHEEEEELLLLLOOOOOOOO-silence' sound; 

затем, второй

p2[M*N], len=j, like 'HHHHHHEEELLOOOO' 

затем DTW на Манхеттене, евклидовой, Брей-Кертис, расчет и т.д. расстояния, вы получите на выходе 2d матрица, будет путь с минимальным весом.