Я сейчас разрабатываю проект распознавания речи, и я пытаюсь выбрать наиболее значимые функции. Большинство соответствующих статей предлагают использовать частоты нулевого пересечения, функции F0 и MFCC, поэтому я их использую. Мой вопрос: учебный образец с продолжительностью 00:03 имеет 268 функций. Учитывая, что я выполняю проект классификации с несколькими классами с 50 + образцами для обучения в классе, включая все функции MFCC, может пострадать от проклятия размерности или «уменьшить значимость» других функций. Итак, мой вопрос в том, должен ли я включать все функции MFCC, если вы не можете предложить альтернативу?Являются функциями MFCC для распознавания речи
ответ
Вы не должны использовать f0 и пересечение нуля, они слишком неустойчивы. Вы можете просто увеличить свои данные обучения и использовать mfccs, у них есть хорошие возможности для представления. Но помните, что они означают - нормализуют их.
После получения коэффициента MFCC каждого кадра, можно представить в качестве признаков MFCC как комбинации:
1) First 12 MFCC 2) 1 energy feature 3) 12 delta MFCC feature 4) 12 double-delta MFCC feature 5) 1 delta energy feature 6) 1 double delta energy feature
гармония из функции дельта MFCC описана в этой link.
39 измерения Функция MFCC подается в HMM или Recurrent Neural Network.
Что вы подразумеваете под 1 энергетической особенностью? Вы предлагаете использовать полную энергию, если это так, то полная энергия не является переменной и не имеет дельта. – Ugur
2-точечная энергия относится к энергии сигнала x в окне от временного образца t1 до t2. – Someone
Поскольку дельта MFCC также изменяется, 1 энергия дельта - это энергия, соответствующая этому. – Someone
Точка, которую я хотел бы сделать, заключается в том, что MFCC не требуется. Вы можете использовать MFCC, и вы можете использовать функции энергии, дельта и дельта-дельта, как упоминается @Mahendra Thapa, но это не «требуется». Некоторые исследователи используют 40 CCs, некоторые снижают DCT из расчета MFCC, делая его MFSC (спектральным, а не кепстральным). Некоторые добавляют дополнительные функции. Некоторые используют меньше. Восприимчивость к проклятию размерности зависит от вашего классификатора, не так ли? Некоторые в последнее время даже утверждают, что добились прогресса в направлении «святого грааля» распознавания речи, тренироваться с использованием необработанного сигнала, используя глубокое обучение, изучая лучшие функции, а не вручную обрабатывая их.
MFCC широко используется, и эффект относительно лучше.
не могли бы вы расширить свой ответ? –
Являются ли mfcc хорошими только для речи или могут ли они использоваться для любой задачи, связанной с аудио/звуком? –
Для некоторых задач MFCC в порядке, для некоторых задач, таких как распознавание музыки, недостаточно разрешения, и используются другие функции. –