Есть ли способ обнаружить только в реальном времени, если говорят несколько человек? Нужно ли для этого распознавание голоса api?Обнаружение нескольких голосов без распознавания речи
Я не хочу отделять аудио, и я не хочу его расшифровывать. Моим подходом было бы часто записывать с использованием одного микрофона (-> моно), а затем анализировать эти записи. Но как тогда я обнаруживаю и выделяю голоса? Я бы сузил его, глядя только на соответствующие частоты, но затем ...
Я действительно понимаю, что это не мелочи. Вот почему я надеюсь, что есть api, способный сделать это из коробки - предпочтительно мобильный/веб-интерфейс api.
Теперь это может показаться списком покупок на Рождество, но, как уже упоминалось, мне не нужно ничего знать о содержании. Поэтому я предполагаю, что полноценное распознавание речи будет иметь большое значение для производительности.
Спасибо, это выглядит очень хорошо. Я думаю, что понимаю эту идею и пытаюсь ее запустить. В идеале программе понадобится классификатор GMM поезда на настоящие голоса при запуске. Я еще не использовал python, но я попробую. –