Я новичок в обработке речи. Поэтому, пожалуйста, простите за мое невежество. Мне дали короткий речевой сигнал (10 секунд), и мне было предложено вручную аннотировать шаг с использованием программного обеспечения MATLAB или Wavesufer. Теперь, как найти шаг речевого сигнала ?. Есть ли теоретический ресурс для решения этой проблемы? Я попытался построить контур сигнала с помощью Wavesurfer. Правильно ли это?Ручная оценка высоты речевого сигнала
Редактировать 1: В моей работе применяются различные алгоритмы определения высоты тона для наших данных и сравниваются их точность. Таким образом, ручная аннотация шаг выступает в качестве эталона.
ОБНОВЛЕНИЕ 1: Я получил GCI (Glottal Closure Instants), дифференцируя сигнал EGG (dEGG), а пики в dEGG являются GCI. Интервал времени между двумя последовательными GCI - это период (периоды) основного тона. Обратным для периода тангажа является шаг (hz).
ОБНОВЛЕНИЕ 2: SIGMA - известный алгоритм автоматического обнаружения GCI.
Спасибо всем.
http://www.seas.ucla.edu/spapl/paper/IS110135.pdf – Dschoni
есть много способов найти поле, но реальный вопрос - это то, что вы подразумеваете под «вручную аннотировать» - шаг речи существуют между 50 Гц и 500 Гц - так что первое, что вы, возможно, захотите сделать, это низкочастотное фильтрование вашей речи, чтобы избавиться от некоторых гармоник. Если вы просто хотите вручную определить высоту тона, я предлагаю использовать такое преобразование, как STFT (спектрограмма) или cochleargram. – GameOfThrows
@GameOfThrows Моя работа применяет различные алгоритмы определения высоты тона для наших данных и сравнивает их точность. Таким образом, ручная аннотация шаг выступает в качестве эталона. – gokul