1

Я сейчас разрабатываю проект распознавания речи, и я пытаюсь выбрать наиболее значимые функции. Большинство соответствующих статей предлагают использовать частоты нулевого пересечения, функции F0 и MFCC, поэтому я их использую. Мой вопрос: учебный образец с продолжительностью 00:03 имеет 268 функций. Учитывая, что я выполняю проект классификации с несколькими классами с 50 + образцами для обучения в классе, включая все функции MFCC, может пострадать от проклятия размерности или «уменьшить значимость» других функций. Итак, мой вопрос в том, должен ли я включать все функции MFCC, если вы не можете предложить альтернативу?Являются функциями MFCC для распознавания речи

ответ

2

Вы не должны использовать f0 и пересечение нуля, они слишком неустойчивы. Вы можете просто увеличить свои данные обучения и использовать mfccs, у них есть хорошие возможности для представления. Но помните, что они означают - нормализуют их.

+0

Являются ли mfcc хорошими только для речи или могут ли они использоваться для любой задачи, связанной с аудио/звуком? –

+1

Для некоторых задач MFCC в порядке, для некоторых задач, таких как распознавание музыки, недостаточно разрешения, и используются другие функции. –

2

После получения коэффициента MFCC каждого кадра, можно представить в качестве признаков MFCC как комбинации:

 
1) First 12 MFCC 
2) 1 energy feature 
3) 12 delta MFCC feature 
4) 12 double-delta MFCC feature 
5) 1 delta energy feature 
6) 1 double delta energy feature 

гармония из функции дельта MFCC описана в этой link.

39 измерения Функция MFCC подается в HMM или Recurrent Neural Network.

+0

Что вы подразумеваете под 1 энергетической особенностью? Вы предлагаете использовать полную энергию, если это так, то полная энергия не является переменной и не имеет дельта. – Ugur

+0

2-точечная энергия относится к энергии сигнала x в окне от временного образца t1 до t2. – Someone

+0

Поскольку дельта MFCC также изменяется, 1 энергия дельта - это энергия, соответствующая этому. – Someone

1

Точка, которую я хотел бы сделать, заключается в том, что MFCC не требуется. Вы можете использовать MFCC, и вы можете использовать функции энергии, дельта и дельта-дельта, как упоминается @Mahendra Thapa, но это не «требуется». Некоторые исследователи используют 40 CCs, некоторые снижают DCT из расчета MFCC, делая его MFSC (спектральным, а не кепстральным). Некоторые добавляют дополнительные функции. Некоторые используют меньше. Восприимчивость к проклятию размерности зависит от вашего классификатора, не так ли? Некоторые в последнее время даже утверждают, что добились прогресса в направлении «святого грааля» распознавания речи, тренироваться с использованием необработанного сигнала, используя глубокое обучение, изучая лучшие функции, а не вручную обрабатывая их.

0

MFCC широко используется, и эффект относительно лучше.

+0

не могли бы вы расширить свой ответ? –