Voice Recognition Api

У меня есть приложение для Java. И я хочу реализовать функцию распознавания голоса.Voice Recognition Api

Так же, как это:

Предполагая, у меня есть несколько записей, которые называются «эй», «один», «два,„чай“пользователем Когда он/она говорит.„Эй“, распознавание голоса api должен распознать первый вход записей. «hey», «one», «two», «tea» может быть чем-то, что не является английским.

Я уже искал apis, которые поддерживают распознавание речи или имеют алгоритм audiofingerprintin. Но я не хочу их использовать.

Позвольте мне объяснить, почему я не использую эти apis. Прежде всего, распознавание речи apis пытается понять слово и преобразовать в текст. Однако это ограничивается на поддерживаемых языках api. Даже если распознавание речи api поддерживает английский язык. Из-за плохого произношения пользователя могут быть даны плохие результаты. Поэтому я не хочу использовать распознавание речи api в своем приложении. Потому что эта функция не должна основываться на языке.

Кроме того, когда я искал распознавание голоса api, я нашел «аудиопринциппер» apis. Я использовал «musicg« api, который является открытым исходным кодом. И затем я разработал тестовое приложение. Приложение записывает 4 разных аудиофайла, содержащих неслоистые голоса. После этого я записал голос, похожий на один из них, и тест api сравнил последний с прежними аудиофайлами, используя musicg api. Однако результаты также очень плохи.

Как я уже упоминал ранее, мне нужно получить функцию распознавания голоса, которая так же, как и старые телефоны.

источник

2016-06-20 ziLk

у меня такой же проблема сэр. все еще ищут ответ. любой рефери на признание хлопа? –

@SagarNayak Вы можете распознать claps используя musicg api. https://groups.google.com/forum/?fromgroups#!topic/musicg-api/oWRpUo3ZNXo – ziLk

уверенно попробуйте и обновите. спасибо @zilk –

проверка Kaldi http://kaldi-asr.org/ или это tensorflow учебник: https://www.tensorflow.org/tutorials/audio_recognition

в обеих случаях, вы можете тренировать модель, это не язык, основанные. Вы можете обучать модель для определенного голоса или акцента или определенного контекста.

Кроме того, возможно, этот проект будет интересовать вас: https://github.com/cmusphinx/g2p-seq2seq Он не использует языковые модели и переводит аудио в фонемы.

источник

2017-11-29 19:09:09

ответ

Смежные вопросы