1

Для того чтобы преобразовать речь в текст, я использую cmusphinx с открытым исходным кодом API, который преобразует .wav формат аудио в текст и использует языковую модель для конкретного входа речевого языка точностьКак я могу улучшить точность API распознавания речи с открытым исходным кодом pocketsphinx для английского языка?

ответ

1

Карманный Sphinx полностью основан на модели, используемой , Чтобы добиться лучших результатов, попробуйте обучить свою акустическую модель в соответствии с целевым пользователем. Если вы не хотите тренировать свою собственную модель, попробуйте изменить различные параметры feat.params, например -cmninit.

Кроме того, попробуйте установить recognizer.setKeywordThreshold() как мин насколько это возможно, я предпочитаю recognizer.setKeywordThreshold(1e-40f)