Можем ли мы использовать mp3-файлы для процесса распознавания голоса без использования wav-файлов? или мы можем генерировать wav-файл из mp3, а затем записывать голоса без серьезного влияния на точность? Проблема в том, что мне нужно минимизировать нагрузку, переданную через сеть в моем приложении. Будет ли информация, потерянная при конвертации, огромным фактором точности?распознавание mp3 с использованием Sphinx 4
ответ
Можем ли мы использовать mp3-файлы для процесса распознавания голоса без использования wav-файлов?
Не напрямую. Чтобы иметь возможность распознавать потоки mp3, вам нужно использовать java-библиотеку для чтения mp3 и конвертировать в поток pcm (tritonus-mp3, lameonj). Вы также можете вызвать ffmpeg как отдельный процесс для декодирования.
или мы можем сгенерировать wav-файл из mp3, а затем сделать голосовое распознавание без серьезного влияния на точность?
В обоих случаях точность зависит от того, где вы декодируете mp3-файл.
Проблема заключается в том, чтобы минимизировать нагрузку, передаваемую через сеть , в моем приложении. Будет ли информация, потерянная в преобразовании , огромным фактором точности?
Лучше использовать без потерь кодек, например flac для передачи. Преобразование mp3 ухудшает точность ASR. Другим подходом было бы рассчитать функции на клиенте и перенести их на сервер.
спасибо. :) Есть ли Java-плагин для flac также? – SDK
да, например http://jflac.sourceforge.net/ –