Привет Признание экспертов,Digits с CMU Sphinx
У меня есть много mp3-файлов (оригинальный аудиопоток дискретизации был 11,025 кГц), содержащий цифры (0 - 9).
Разные динамики (мужчины/женщины) говорят, например, «One», «Семь», «Три» и т.д. с паузами между ними (~ 2 - 2,5 секунды)
Я собираюсь использовать CMU Sphinx распознавать речь (настольное приложение). Так что у меня есть несколько вопросов:
MP3 декодирование: Как расшифровать мои файлы mp3, означающие, что SAMPLERATE я должен указать FFmpeg (как я знаю, что это не рекомендуется, чтобы повышенной дискретизации/декодируют потоки). Должен ли я фильтровать шумы и/или частотные диапазоны во время декодирования?
акустические модели: Если я сделать не повышающую дискретизацию/декодируют поток, как может я найти акустическую модель, поддерживающую 11025 кГц. Если я сделать, что является лучшей моделью для цифр?
Режим распознавания: Я нашел Есть два режима для переписывания - Key пятнистости и признание. Whichmode бы лучше, принимая во внимание у меня есть только цифры (и некоторый шум)
Благодарности
UPD:
Николай, спасибо за ответ. Я пробовал то, что вы предлагаете - это работает!
Если вы не возражаете, я хотел бы задать некоторые дополнительные qiestions:
я обнаружил, что один из voxforge акустических моделей является более точным, чем ан-нас-8kHz. Это нормально?
Только 45% файлов распознаются правильно. Другие 55% имеют 20-90% ошибок. Таким образом, мой вопрос: есть ли возможность оценить доверие к полученным результатам? Например, я могу пропустить файлы, которые «не обязательно» распознаются?
Если ответ 2 «нет», что вы можете предложить, чтобы повысить точность? Я знаю, вопрос очень абстрактный ...
Спасибо заранее!
UPD2:
Кстати, лучшие параметры, (я только что прошел через различные параметры): декодирование
-remove_dc yes -remove_noise no -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5
Спасибо, Nokilay. Моя повезло комбинация: 'pocketsphinx_continuous -infile file.wav -jsgf digits.gram -Хм voxforge_model -samprate 8000 -remove_dc да -remove_noise нет -vad_threshold 3,4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5' CMU Sphinx FAQ говорит : _Zero тишины регионов в аудиофайлах, декодированных из mp3, разбить декодер. Вы можете использовать сглаживание, чтобы ввести небольшой случайный шум для решения этой проблемы. Вы хотите сказать, что это может повлиять на результат? – Sinotix
Нет, модель voxforge должна быть намного менее точной. Ваши дополнительные аргументы также неверны, вы не должны отключать удаление шума. Чтобы проанализировать плохую точность, вам нужно предоставить несколько пробных образцов. Я предлагаю вам обсудить эту проблему на форуме cmusphinx, это не соответствует формату stackoverflow. –
Для тех, кого это интересует, продолжение здесь: https://sourceforge.net/p/cmusphinx/discussion/help/thread/654ed756/ – Sinotix