0

Я пытаюсь создать двигатель TTS для Indian Accented English (не любой индийский язык).Какова цель адаптивного обучения динамиков и обучения спикера?

У меня уже есть база данных записей голоса для индийского акцентированного английского языка. Итак, Какие следующие шаги?

Я думаю, нам нужно обозначить их ".lab" extension файлов (ну, я действительно не знаю об этом!). И какие файлы с расширением «.utts» для?

Что такое Цель адаптивной тренировки динамиков и обучения, связанного с динамикой при внедрении двигателя TTS с использованием HMM?

Я много гулял, но не смог найти подробное объяснение для них. (все, что я мог найти, были связаны с некоторыми документами и журналами)

Было бы очень полезно, если бы вы могли предоставить нам ссылки на ресурсы, которые помогут мне создать пользовательскую TTS, используя скрытые модели Marvkov.

спасибо.

ответ

1

Festival - хороший инструмент для конкатенации речи, который также использует HMM.
HTS - еще один хороший синтезатор на основе HMM.

.lab или .phn это файлы этикетки, где каждое слово разбивается на фонемы с соответствующими отметками времени с аудио. Например для звукового файла, содержащего слово «этого», файл метка может быть:

0.28 0.35 sil 
0.35 0.42 dh 
0.42 0.5 i 
0.5 0.61 s 

где цифры времени начала и окончания в секундах для произношения фонемы.

.utt - это файлы высказываний, которые формируются после того, как будут учтены все данные, такие как стресс, часть речи, интонация, продолжительность речи и т. Д. Эти файлы затем могут использоваться для речевого вывода (воспроизведение речи)

Качество синтезируемой речи зависит от набора аудио, используемого для обучения. Адаптивная тренировка динамиков адаптирует модель для размещения динамиков с разными голосами и акцентами/диалектами. Отдельные модели обучаются в случае обучения, зависимого от спикера, для разных голосов.

Вы можете пройти через Festival Manual, чтобы узнать, как создать трубопровод синтеза речи. Фестиваль вместе с HTS также используется там, где Фестиваль используется для текстового анализа в интерфейсе (создание словаря, слова для фонемы и т. Д.), Тогда как HTS используется для речевого моделирования на основе HMM.