2014-04-12 6 views
0

Я использую cmusphinx для выравнивания текста. Я загрузил последнюю версию sphinx4, построил выравниватель текста, изменив одну из демоверсий, используя акустические модели WSJ и словари, которые поставляются вместе с кодом. Он работает незаметно, но для множества довольно хороших произношений, выравнивающих простой текст, он просто терпит неудачу.Использование cmusphinx для выравнивания текста на практике, как повысить коэффициент успеха распознавания?

В чем причина? Является ли это языковыми моделями, которые я использую, слишком ограничен, и я должен загружать больше данных модели для подачи распознавателя? Есть ли хороший расфасованный дистрибутив sphinx, который избавляет меня от тестирования с использованием разных языковых моделей и настройки программного обеспечения?

И спасибо :)

Вот коды я думаю, что бы вопросов,

byte[] bytes = readContentOfAOggFile(); 
ByteArrayInputStream inputStream = new ByteArrayInputStream(bytes); 

grammar = (ResetableTextAlignGrammar) cm.lookup("textAlignGrammar"); 
grammar.setTextAfterAllocation(referenceText); 


AudioInputStream ai = AudioSystem.getAudioInputStream(inputStream); 
dataSource.setInputStream(ai, null); 
dataSource = (AudioFileDataSource) cm.lookup("audioFileDataSource"); 
dataSource.setInputStream(stream, null); 

result = recognizer.recognize(); 

Пожалуйста, обратите внимание, что этот код работает на половину отдельных слов предложения.

ответ

0

В чем причина?

Вам необходимо разделить данные, которые вы пытаетесь получить ответ на этот

ли это языковые модели, которые я использую слишком ограничен, и я должен загружать больше данных модели кормить распознаватель?

Вряд

Есть ли хороший расфасованный распределение сфинкса, что спасает меня от тестирования с различными моделями языка и настройки программного обеспечения?

Как только вы делитесь своими тестовыми данными, легче сказать, что там происходит.

+0

Не могли бы вы посмотреть мои файлы с данными здесь: https://www.dropbox.com/sh/dw9qvk9d4m1s32q/pEpGsPPwki – tactoth

+0

Это все 16k монофонические звуковые файлы. – tactoth

+0

Общие файлы - ogg, теперь wav. К какому тексту вы привязаны? –