Вход для скрытой марковской программы распознавания речи

Я собираюсь создать программу распознавания речи на основе скрытой марковской модели. К сожалению, я не знаю, как получить входную звуковую последовательность и, ну, работать с ней. Может ли кто-нибудь сказать мне, какой общий подход для чтения значений из формата звукового файла (т. Е. .wav, .mp3 и т. Д.) И нарезка саундтрека на куски на C++?Вход для скрытой марковской программы распознавания речи

источник

2016-12-20 Barsik the Cat

http://en.cppreference.com/w/cpp/links/libs#Audio – macroland

Лучше проверить, что делает существующее программное обеспечение –

Общий подход заключается в преобразовании входного звука в последовательность векторов признаков (обычно, MFCC). Этот способ описан в общем случае в CMU Sphinx wiki и подробно описан в HTK Book. Вы также можете изучить общее назначение openSMILE toolkit, чтобы посмотреть, как это делается на C++.

источник

2016-12-24 21:11:15

Вход для скрытой марковской программы распознавания речи

ответ

Смежные вопросы