Я пытаюсь создать высококачественную передачу голоса с использованием Microsoft Speech API. Какие значения я должен передать в this constructor, чтобы гарантировать высокое качество звука?Какие характеристики должны иметь .wav-файл в результате того, что двигатель TTS будет прослушиваться с высоким качеством?
Файл .wav будет использоваться последним для подачи FFmpeg, поэтому звук будет перекодирован последним в более компактную форму. Моя главная цель - держать голос настолько ясным, насколько я могу, но я действительно не знаю, какие ценности гарантируют лучшее качество, воспринимаемое людьми.
спасибо, второй пункт был очень полезным потому является та часть, где я меньше знаний и больше сомнений;) –
Для второй точки, вы должны знать, что частотный диапазон реального записанного звука составляет половину частоты дискретизации .... так что частота дискретизации 16000 Гц означает, что записываются только звуки от 0 до 8000 Гц. Потому что человеческий голос может теоретически достигать 8000 Гц, поэтому я сказал, что вы можете пойти с 16000 Гц. Нормальный, голос намного ниже 8000 Гц, но не пытайтесь идти ниже 16 кГц, потому что это небольшое количество выборок в секунду для точного воссоздания формы волны при воспроизведении звука ... – Alexander