0

Привет Признание экспертов,Digits с CMU Sphinx

У меня есть много mp3-файлов (оригинальный аудиопоток дискретизации был 11,025 кГц), содержащий цифры (0 - 9).

Разные динамики (мужчины/женщины) говорят, например, «One», «Семь», «Три» и т.д. с паузами между ними (~ 2 - 2,5 секунды)

Я собираюсь использовать CMU Sphinx распознавать речь (настольное приложение). Так что у меня есть несколько вопросов:

  1. MP3 декодирование: Как расшифровать мои файлы mp3, означающие, что SAMPLERATE я должен указать FFmpeg (как я знаю, что это не рекомендуется, чтобы повышенной дискретизации/декодируют потоки). Должен ли я фильтровать шумы и/или частотные диапазоны во время декодирования?

  2. акустические модели: Если я сделать не повышающую дискретизацию/декодируют поток, как может я найти акустическую модель, поддерживающую 11025 кГц. Если я сделать, что является лучшей моделью для цифр?

  3. Режим распознавания: Я нашел Есть два режима для переписывания - Key пятнистости и признание. Whichmode бы лучше, принимая во внимание у меня есть только цифры (и некоторый шум)

Благодарности

UPD:

Николай, спасибо за ответ. Я пробовал то, что вы предлагаете - это работает!

Если вы не возражаете, я хотел бы задать некоторые дополнительные qiestions:

  1. я обнаружил, что один из voxforge акустических моделей является более точным, чем ан-нас-8kHz. Это нормально?

  2. Только 45% файлов распознаются правильно. Другие 55% имеют 20-90% ошибок. Таким образом, мой вопрос: есть ли возможность оценить доверие к полученным результатам? Например, я могу пропустить файлы, которые «не обязательно» распознаются?

  3. Если ответ 2 «нет», что вы можете предложить, чтобы повысить точность? Я знаю, вопрос очень абстрактный ...

Спасибо заранее!

UPD2:

Кстати, лучшие параметры, (я только что прошел через различные параметры): декодирование

-remove_dc yes -remove_noise no -vad_threshold 3.4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5 

ответ

0

MP3: Как расшифровать мои файлы mp3 что я хотел бы указать ffmpeg (как я знаю, это не рекомендуется для восходящего потока/downsample). Должен ли я фильтровать шумы и/или частотные диапазоны во время декодирования?

ffmpeg -i file.mp3 -ar 8000 file.wav 

акустические модели: Если я не повышающая дискретизации/декодирует поток, как я могу найти акустическую модель, поддерживающую 11025 кЦа. Если да, то какая лучшая модель для цифр?

ан-нас-8kHz доступен в загрузки, вам нужно создать цифры грамматику в tutorial, а затем использовать его следующим образом

pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000 

режим распознавания: я нашел, что есть два режима для расшифровки - Key spotting and Recognition. Whichmode бы лучше принимать во внимание у меня есть только цифры (и некоторый шум)

режим распознавания

+0

Спасибо, Nokilay. Моя повезло комбинация: 'pocketsphinx_continuous -infile file.wav -jsgf digits.gram -Хм voxforge_model -samprate 8000 -remove_dc да -remove_noise нет -vad_threshold 3,4 -vad_prespeech 19 -vad_postspeech 37 -silprob 2.5' CMU Sphinx FAQ говорит : _Zero тишины регионов в аудиофайлах, декодированных из mp3, разбить декодер. Вы можете использовать сглаживание, чтобы ввести небольшой случайный шум для решения этой проблемы. Вы хотите сказать, что это может повлиять на результат? – Sinotix

+0

Нет, модель voxforge должна быть намного менее точной. Ваши дополнительные аргументы также неверны, вы не должны отключать удаление шума. Чтобы проанализировать плохую точность, вам нужно предоставить несколько пробных образцов. Я предлагаю вам обсудить эту проблему на форуме cmusphinx, это не соответствует формату stackoverflow. –

+0

Для тех, кого это интересует, продолжение здесь: https://sourceforge.net/p/cmusphinx/discussion/help/thread/654ed756/ – Sinotix