Я пишу приложение, которое должно получать аудио и отправлять его в Bing Recognition API для получения текста. Я использовал служебную библиотеку, и она работает с wav-файлом. Поэтому я написал собственный класс потока для приема звука с микрофона или сети (RTP), как отправить его в API распознавания. Когда я добавляю заголовок WAV перед аудиопотоком, он работает в течение нескольких секунд.Можно ли отправлять данные в реальном времени в Bing Speech Recognition?
Отладка показывает, что распознавание api считывает поток формы быстрее, чем заполняется источником звука (16 кб, 16 бит, моно).
Итак, мой вопрос: есть ли способ использовать распознавание api с непрерывным звуковым потоком в реальном времени?
Я знаю, что есть пример с микрофонным клиентом, но он работает только с микрофоном, и мне это нужно для разных источников.
Вы хотите просто отправить аудио в реальном времени и получить результаты, когда кто-то говорит? Или вы хотите отправить произвольно длинный поток аудио? Возможно, если вы ссылаетесь на пример микрофона, ваш вопрос будет более ясным. –
Я хочу отправить аудио в реальном времени, чтобы получить частичные результаты во время разговора. В основном, как [образец микрофона] (https://github.com/Microsoft/Cognitive-Speech-STT-Windows) в папке с образцом, но для разных источников (например, RTP). Но я надеюсь, что нашел решение (нужно сделать еще несколько тестов). Если это сработает, я создам ответ с описанием. –