2016-09-06 18 views
1

Я новичок в обработке речи. Поэтому, пожалуйста, простите за мое невежество. Мне дали короткий речевой сигнал (10 секунд), и мне было предложено вручную аннотировать шаг с использованием программного обеспечения MATLAB или Wavesufer. Теперь, как найти шаг речевого сигнала ?. Есть ли теоретический ресурс для решения этой проблемы? Я попытался построить контур сигнала с помощью Wavesurfer. Правильно ли это?Ручная оценка высоты речевого сигнала

Редактировать 1: В моей работе применяются различные алгоритмы определения высоты тона для наших данных и сравниваются их точность. Таким образом, ручная аннотация шаг выступает в качестве эталона.

ОБНОВЛЕНИЕ 1: Я получил GCI (Glottal Closure Instants), дифференцируя сигнал EGG (dEGG), а пики в dEGG являются GCI. Интервал времени между двумя последовательными GCI - это период (периоды) основного тона. Обратным для периода тангажа является шаг (hz).

ОБНОВЛЕНИЕ 2: SIGMA - известный алгоритм автоматического обнаружения GCI.

Спасибо всем.

+0

http://www.seas.ucla.edu/spapl/paper/IS110135.pdf – Dschoni

+0

есть много способов найти поле, но реальный вопрос - это то, что вы подразумеваете под «вручную аннотировать» - шаг речи существуют между 50 Гц и 500 Гц - так что первое, что вы, возможно, захотите сделать, это низкочастотное фильтрование вашей речи, чтобы избавиться от некоторых гармоник. Если вы просто хотите вручную определить высоту тона, я предлагаю использовать такое преобразование, как STFT (спектрограмма) или cochleargram. – GameOfThrows

+0

@GameOfThrows Моя работа применяет различные алгоритмы определения высоты тона для наших данных и сравнивает их точность. Таким образом, ручная аннотация шаг выступает в качестве эталона. – gokul

ответ

1

Обычно наземная правда получается на сигнале, сопровождаемом записью EGG. EGG является аббревиатурой для Electrogastrogram, это специальное устройство, которое фиксирует истинную подачу.

Поскольку я сомневаюсь, что у вас есть доступ к такому устройству, я рекомендую вам использовать существующую базу данных для оценки извлечения шага, тщательно подготовленной для этой задачи. Вы можете скачать его here. Эти данные были собраны в Университете Эдинбурга Полом Бэгшоу

Я предлагаю вам также прочитать его диссертацию.

Если вы хотите сравнить с современным алгоритмом для проверки извлечения основного тона https://github.com/google/REAPER. Также обратите внимание, что «истинный» шаг может быть не лучшей функцией для последующих алгоритмов. Иногда вы можете извлечь тональность с ошибками, но получить лучшую точность, например, для распознавания речи. Проверьте дополнительную информацию this publication.

+0

На самом деле у меня есть сигнал EGG для соответствующего сигнала со мной. – gokul

+1

Тогда вы можете просто извлечь смолу из ЯЙЦА с помощью REAPER, это будет истиной земли. Вы можете проверить эту методологию на странице http://tcts.fpms.ac.be/publications/papers/2013/icassp2013_obtdndatd.pdf, раздел 3.2 Ground Truth –

+0

Спасибо. Это было действительно полезно. – gokul