2016-12-20 9 views
0

Я собираюсь создать программу распознавания речи на основе скрытой марковской модели. К сожалению, я не знаю, как получить входную звуковую последовательность и, ну, работать с ней. Может ли кто-нибудь сказать мне, какой общий подход для чтения значений из формата звукового файла (т. Е. .wav, .mp3 и т. Д.) И нарезка саундтрека на куски на C++?Вход для скрытой марковской программы распознавания речи

+0

http://en.cppreference.com/w/cpp/links/libs#Audio – macroland

+0

Лучше проверить, что делает существующее программное обеспечение –

ответ

0

Общий подход заключается в преобразовании входного звука в последовательность векторов признаков (обычно, MFCC). Этот способ описан в общем случае в CMU Sphinx wiki и подробно описан в HTK Book. Вы также можете изучить общее назначение openSMILE toolkit, чтобы посмотреть, как это делается на C++.