2

Я ищу API распознавания речи, который возвращает промежуточные результаты, как говорит пользователь, аналогично тому, что делает Google на своей домашней странице (https://www.google.com). Я ищу API, который поддерживает французский. Я хочу создать веб-приложение, которое работает аналогично поиску вокала Google.Есть ли API распознавания речи помимо Google, который возвращает промежуточные результаты?

  • API Google Speech не рекомендуется для профессионального развития, поскольку он часто изменяется и не полностью документирован.
  • IBM Watson не поддерживает французский
  • AT & T Speech API не возвращает промежуточные результаты
  • CMU Sphinx возвращает невероятно плохие результаты (см демку здесь: http://syl22-00.github.io/pocketsphinx.js/live-demo.html) продукты
  • Nuance не кажется для веб-приложения. (если вы знаете, что мне делать, чтобы их использовать, мне интересно!)

ответ

1

Microsoft Project Oxford Speech Recognition API, используемый Cortana и Skype Translator, соответствует вашим критериям: он поддерживает французский (и еще 6 других языков) и возвращает частичные/промежуточные/онлайн-гипотезы, когда вы передаете аудио на него.

(В отличие от обычной проблемы, которая вызывает ужасную точность при онлайн-распознавании с помощью Pocketsphinx, это плохой CMN (средняя нормализация cepstral). Когда вы даете pocketsphinx полный фрагмент аудио для обработки, он вычисляет CMN на протяжении всего высказывания , но когда вы передаете аудио в него, он по умолчанию не вычисляет CMN. Одно из решений - дать ему полное высказывание, получить CMN, вычисленный с помощью pocketsphinx, затем использовать этот CMN для потокового аудио. Обратите внимание, что CMN отличается для каждого аудио-канал/окружение и что интерфейс Python для pocketsphinx не предоставляет интерфейс для данных CMN. У меня есть патч, если это маршрут, который вы хотите исследовать.)

1

Многие текстовые приложения с голосом и текстом используют технологию распознавания речи, разработанную Nuance Communications. SDK, который хорошо работает с веб-приложением, это их Server SDK, который поддерживает преобразование потокового аудио в текст. Он поддерживает французский язык в дополнение к английскому и немецкому языкам. Чтобы использовать это, вам, скорее всего, потребуется передать аудио вход через запрос AJAX на сервер, на котором он будет обработан, а затем принять текст как XMLHTTPResponse из вашего запроса AJAX.