2016-09-21 13 views
0

Приветствия StackOverflow сообщества,TTS конкатенации на основе пользовательского ввода

Можно ли принять то, что говорит пользователь или входит (например, буквы 1 - 9) и вместо текста в речь двигатель чтения номера обратно в пользователь, он играет предварительно записанный аудиоклип, так что это звучит как наш голос голос человек вместо робота?

Можете ли вы сделать это динамически, исходя из того, что вводит пользователь?

Все, что я действительно прошу, это продукт в правильном направлении, как начать понимать это.

ответ

1

Вы можете. Я уже давно написал логику, которая принимает нужную фразу и список доступных клипов, чтобы найти самые большие сегменты (клипы часто имели несколько фраз), которые можно было использовать для сборки аудио. Это звучит очень странно, но это возможно, если у вас достаточно предварительно записанного звука. В моем случае содержание было в нише и могло быть достигнуто с 95% охватом всего несколькими тысячами записей.

В конце концов, это была просто основная логика поиска, чтобы найти клипы. Если вы делаете это на уровне слов, вы можете просто назвать каждый клип словом и разделить вход и сгенерировать звуковые теги. <audio src='the.wav'/><audio src='quick.wav'/><audio src='brown.wav'/><audio src='fox.wav'/> ...

+0

К счастью, я только должен делать буквы 0 - 9. Знаете ли вы о какой-либо документации, которая была бы полезной для чтения, чтобы понять концепцию? Также .. спасибо за ваш ответ. я действительно ценю это – Krunkmaster

+0

Вы просите логику разделить текстовую строку и сгенерировать список аудиоклипов? Самый простой подход, если это клиентская сторона VoiceXML, заключается в создании списка имен файлов в Javascript и воспроизведении массива с элементом foreach. Если код сгенерирован сервером, напрямую создавайте аудио элементы на странице. –

+0

Спасибо за толкание в правильном направлении. Я ценю ваше время и знания – Krunkmaster