2016-10-06 2 views
1

ли кто-нибудь есть опыт использования Twilio и Nuance ASR (https://developer.nuance.com/public/index.php?task=memberServices) для создания голосовых приложений распознавания? \Twilio и Nuance ASR возможность

Я имею в виду задержки по времени не сделает это возможным. Например, если бы я попросил пользователя что-то сказать и заставить Nuance распознать его и вернуть мне транскрипцию, а затем я посмотрю, что в моей системе дальнейшие действия просто затянутся слишком долго.

  1. Захват аудио пользователя
  2. взять запись голоса URL из Twilio,
  3. и передать аудиофайл Nuance
  4. Затем возьмите транскрипцию нюанса
  5. матча слова против моих данных
  6. принять соответствующие меры

Это все должно произойти fairl y быстро, но достаточно ли достаточно, чтобы быть приемлемым для вызывающего?

любые мысли были бы здорово Спасибо

пса. Я попытался создать тег Nuance, но не был разрешен

ответ

2

Я в настоящее время работаю на платформе связи, которая предлагает в реальном времени перевод, и я использую Twilio в качестве поставщика платформы для нашего автомата. переведенная функция голосового вызова. Технология ASR от Nuance является, по меньшей мере, средней и абсолютно неприменима для низкополосного аудио. Ознакомьтесь с API Google Cloud Speech. Я добился очень хороших результатов. ASR занимает около 3-5 секунд.

+0

Спасибо, Что вы делаете в течение 3-5 секунд, чтобы получить результаты обработки? вы играете какой-то трюк или музыку? – stormyguy

0

Nuance Recognizer работает с низкочастотным звуком - на самом деле он предназначен для использования в среде телефонии - комментарий ранее неверен. Тем не менее, проблема заключается в получении аудио потока от Twilio обратно в Recognizer своевременно для частичного распознавания. Как правило, Nuance Recognizer интегрируется с платформами IVR с использованием MRCP, но я не думаю, что Twilio поддерживает этот протокол. Таким образом, если вы используете сторонний движок, вам может потребоваться записать фразу, затем отправить (передать ее) в экземпляр ASR, обработать ответ и отправить результаты Twilio - это вызывает задержку, так как механизм ASR не может обрабатывать частичные аудио. Простой пример проблемы - если кто-то говорит в течение 10 секунд, результаты не возвращаются в Twilio в течение 10 секунд (время записи) + время передачи + время обработки + время возврата в Twilio.

 Смежные вопросы

  • Нет связанных вопросов^_^