2016-07-13 4 views
0

У меня есть рабочее приложение, которое использует интерфейс речи Bluemix для текста, чтобы предоставить закрытые титры для источников потоковой передачи Http Live Streaming. Однако есть некоторая задержка с разбором звука из файлов ts. Мой код выглядит следующим образом:bluemix речь в реальном времени с текстом с HLS

videoProps.stream = WatsonSpeechToText.recognizeElement({ 
    element: myMediaElement, 
    token: videoProps.ctx.token, 
    muteSource: false, 
    autoPlay: false, 
    model:videoProps.ctx.currentModel, 
    timestamps: true, 
    profanity_filter: true, 
    inactivity_timeout: -1, 
    continuous: true 
}) 
.pipe(new WatsonSpeechToText.FormatStream()); 

videoProps.stream.on("result", function(result) { 
    //do something 
} 

Есть ли более быстрый API для использования, который приближает меня к реальному времени?

Благодаря

+0

Здравствуйте Аарону, Какую модель вы используете? Английский Широкополосная модель? Скорость зависит от качества записи. Какой коэффициент реального времени вы получаете (RTF = время декодирования/время звучания). Какой аудиоформат? Пожалуйста, попробуйте подать файл через нашу демоверсию. Когда я говорю с ним, я всегда получаю быстрее, чем распознавание в реальном времени. Dani –

ответ

0

реализация с открытым исходным кодом на основе Kaldi как это CloudASR может работать намного быстрее, чем в реальном времени, вы можете также настроить систему на баланс между скоростью и точностью .. Вы должны будете поддерживать ваше облако сервера, хотя.

+0

Конфиденциальность данных также может быть проблемой ... –

+0

Что может случиться, если вы запустите это в своем собственном облаке. Это намного лучше, чем отправлять данные в IBM. –

0

API-интерфейс Watson Speech-to-Text предоставляет различные модели ввода с различными характеристиками производительности. В зависимости от качества звука, BroadbandModel немного быстрее, чем в режиме реального времени, но NarrowBand немного медленнее, чем в режиме реального времени. Какую модель вы используете? Если вы еще не используете BroadbandModel, попробуйте это, так как это должно быть более подходящим для приложения с субтитрами, предполагая, что звук также транслируется в реальном времени.

Вы можете увидеть более подробную информацию об этих моделях и их характеристиках в документации на http://www.ibm.com/watson/developercloud/doc/speech-to-text/input.shtml#models

 Смежные вопросы

  • Нет связанных вопросов^_^