2

Я изучал возможность создания мобильного/веб-приложения, которое позволяет пользователям произносить фразу и определять акцент пользователя (Бостон, Нью-Йорк, Канада и т. Д.). Будет указано от 5 до 10 предопределенных фраз, которые пользователь может сказать. Я знаком с некоторыми из доступных API-интерфейсов Speech to Text (Nuance, Bing, Google и т. Д.), Но ни один из них не предлагает эту дополнительную функциональность. Ближайшие примеры, которые я нашел в Google Now или Microsoft, Recognition Speaker API:API обнаружения Accent?

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

Потому что там будет 5-10 предопределенные фразы я имею в виду, используя машину обучающее программное обеспечение, такое как Tensorflow или Wekinator. У меня был начальный звук, созданный в каждом акценте, чтобы использовать его в качестве исходных данных. Прежде чем я углубился в этот путь, я просто хотел получить отклик на этот подход или, если есть более эффективные подходы. Дайте мне знать, если мне нужно что-то разъяснить.

ответ

3

Вы можете использовать (это просто идея, вам нужно будет много экспериментировать) нейронную сеть с таким количеством выходов в качестве возможных акцентов у вас есть с SoftMax выходного слоя и кросс функции затрат энтропии

4

Существует нет публичного API для такой редкой задачи.

Обнаружение акцентов при обнаружении языка обычно реализуется с i-векторами. Учебное пособие: here. Реализация - available in Kaldi.

Для обучения системы требуется значительный объем данных, даже если ваши предложения исправлены. Возможно, было бы легче собрать акцентированную речь, не сосредотачиваясь на конкретных предложениях, которые у вас есть.

Реализация сквозного тензорного потока также возможна, но, возможно, потребуется слишком много данных, так как вам нужно отделить динамические вещи от акцентированных предметов (в основном выполняйте факторизацию, как это делает i-вектор). Вы можете найти описания подобных работ, таких как this и this one.