Я использую cmusphinx для выравнивания текста. Я загрузил последнюю версию sphinx4, построил выравниватель текста, изменив одну из демоверсий, используя акустические модели WSJ и словари, которые поставляются вместе с кодом. Он работает незаметно, но для множества довольно хороших произношений, выравнивающих простой текст, он просто терпит неудачу.Использование cmusphinx для выравнивания текста на практике, как повысить коэффициент успеха распознавания?
В чем причина? Является ли это языковыми моделями, которые я использую, слишком ограничен, и я должен загружать больше данных модели для подачи распознавателя? Есть ли хороший расфасованный дистрибутив sphinx, который избавляет меня от тестирования с использованием разных языковых моделей и настройки программного обеспечения?
И спасибо :)
Вот коды я думаю, что бы вопросов,
byte[] bytes = readContentOfAOggFile();
ByteArrayInputStream inputStream = new ByteArrayInputStream(bytes);
grammar = (ResetableTextAlignGrammar) cm.lookup("textAlignGrammar");
grammar.setTextAfterAllocation(referenceText);
AudioInputStream ai = AudioSystem.getAudioInputStream(inputStream);
dataSource.setInputStream(ai, null);
dataSource = (AudioFileDataSource) cm.lookup("audioFileDataSource");
dataSource.setInputStream(stream, null);
result = recognizer.recognize();
Пожалуйста, обратите внимание, что этот код работает на половину отдельных слов предложения.
Не могли бы вы посмотреть мои файлы с данными здесь: https://www.dropbox.com/sh/dw9qvk9d4m1s32q/pEpGsPPwki – tactoth
Это все 16k монофонические звуковые файлы. – tactoth
Общие файлы - ogg, теперь wav. К какому тексту вы привязаны? –