Для того чтобы преобразовать речь в текст, я использую cmusphinx с открытым исходным кодом API, который преобразует .wav формат аудио в текст и использует языковую модель для конкретного входа речевого языка точностьКак я могу улучшить точность API распознавания речи с открытым исходным кодом pocketsphinx для английского языка?
1
A
ответ
1
Карманный Sphinx полностью основан на модели, используемой , Чтобы добиться лучших результатов, попробуйте обучить свою акустическую модель в соответствии с целевым пользователем. Если вы не хотите тренировать свою собственную модель, попробуйте изменить различные параметры feat.params
, например -cmninit
.
Кроме того, попробуйте установить recognizer.setKeywordThreshold()
как мин насколько это возможно, я предпочитаю recognizer.setKeywordThreshold(1e-40f)