Я понимаю основные этапы создания автоматизированного механизма распознавания речи. Однако мне нужна четкая идея о том, как выполняется сегментация и каковы рамки и образцы. Я напишу, что знаю, и ожидаю, что ответчик исправит меня в тех местах, где я ошибаюсь, и буду вести меня дальше.Как разбить речевые данные на фреймы и вычислить MFCC
Основные этапы распознавания речи, как я знаю, что это:
(я предполагаю, что входные данные представляют собой WAV/OGG (или какой-то аудио файл))
- Пре- подчеркнуть речевой сигнал: т. е. применить фильтр, который будет акцентировать внимание на высокочастотных сигналах. Возможно, что-то вроде: y [n] = x [n] - 0,95 x [n-1]
- Найдите время, с которого начинаются произнесения и изменяются размеры клипа. (Interchangable with Step 1)
- Сегмент клипа в меньшие временные рамки, каждый сегмент имеет длину 30 мс. Кроме того, каждый сегмент будет иметь около 256 кадров, а два сегмента будут разделены на 100 кадров? (т. е. 30 * 100/256 мсек?)
- Применить окно Хэмминга к каждому кадру (1/256 часть сегмента)? Результатом является массив кадров сигналов.
- быстрое преобразование Фурье сигнала каждого кадра, представленного X (т)
- Mel Фильтр банка Обработка: (еще не Пошел в деталях)
- дискретного косинусного преобразования (пока не Пошел в деталях - но знаю, что это даст мне набор коэффициентов MFCC, называемые также акустические векторов для каждого входного высказывания
- Delta Energy и Delta Spectrum:. Я знаю, что это используется для расчета дельты и коэффициентов двойной дельты коэффициентов MFCC, не так много
- После этого. , Я думаю, что мне нужно использовать HMM или ANN для классификации коэффициентов кепструма Mel (дельта и двойную дельта) для соответствующих фонем и выполнять анализ t o сопоставлять фонемы с словами и соответственно словами с предложениями.
Хотя это ясно для меня, я смущен, если шаг 3 верен. Если это правильно, выполните следующие шаги 3, примените ли это к каждому кадру? Кроме того, после шага 6 я думаю, что каждый кадр имеет свой собственный набор MFCC, верно?
Спасибо заранее!
Как построить mfcc из файла .wav/.mp4? –
@kRazzyR Не знаю, как ответить на это в комментарии, но вам нужно прочитать аудиофайл (если необходимо, сначала распаковать его) в качестве временного ряда. Затем примерно примените шаги, указанные в этом вопросе и ответе. – cipher
Хорошо, я выяснил это. существует пакет python под названием librosa. Мне удалось генерировать mfcc, используя 'import librosa y, sr = librosa.load ('./ data/tring/abcd.wav') mfcc = librosa.feature.mfcc (y = y, sr = sr)' –