Я изучал возможность создания мобильного/веб-приложения, которое позволяет пользователям произносить фразу и определять акцент пользователя (Бостон, Нью-Йорк, Канада и т. Д.). Будет указано от 5 до 10 предопределенных фраз, которые пользователь может сказать. Я знаком с некоторыми из доступных API-интерфейсов Speech to Text (Nuance, Bing, Google и т. Д.), Но ни один из них не предлагает эту дополнительную функциональность. Ближайшие примеры, которые я нашел в Google Now или Microsoft, Recognition Speaker API:API обнаружения Accent?
http://www.androidauthority.com/google-now-accents-515684/
https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api
Потому что там будет 5-10 предопределенные фразы я имею в виду, используя машину обучающее программное обеспечение, такое как Tensorflow или Wekinator. У меня был начальный звук, созданный в каждом акценте, чтобы использовать его в качестве исходных данных. Прежде чем я углубился в этот путь, я просто хотел получить отклик на этот подход или, если есть более эффективные подходы. Дайте мне знать, если мне нужно что-то разъяснить.