2012-01-28 3 views
0

Можем ли мы использовать mp3-файлы для процесса распознавания голоса без использования wav-файлов? или мы можем генерировать wav-файл из mp3, а затем записывать голоса без серьезного влияния на точность? Проблема в том, что мне нужно минимизировать нагрузку, переданную через сеть в моем приложении. Будет ли информация, потерянная при конвертации, огромным фактором точности?распознавание mp3 с использованием Sphinx 4

ответ

1

Можем ли мы использовать mp3-файлы для процесса распознавания голоса без использования wav-файлов?

Не напрямую. Чтобы иметь возможность распознавать потоки mp3, вам нужно использовать java-библиотеку для чтения mp3 и конвертировать в поток pcm (tritonus-mp3, lameonj). Вы также можете вызвать ffmpeg как отдельный процесс для декодирования.

или мы можем сгенерировать wav-файл из mp3, а затем сделать голосовое распознавание без серьезного влияния на точность?

В обоих случаях точность зависит от того, где вы декодируете mp3-файл.

Проблема заключается в том, чтобы минимизировать нагрузку, передаваемую через сеть , в моем приложении. Будет ли информация, потерянная в преобразовании , огромным фактором точности?

Лучше использовать без потерь кодек, например flac для передачи. Преобразование mp3 ухудшает точность ASR. Другим подходом было бы рассчитать функции на клиенте и перенести их на сервер.

+0

спасибо. :) Есть ли Java-плагин для flac также? – SDK

+1

да, например http://jflac.sourceforge.net/ –