Я использую pocketsphinx для распознавания речи с использованием испанской акустической модели и грамматики JSGF с достойными результатами.Pocketsphinx - требуется предварительная обработка звука/рекомендуется?
Тем не менее, я получаю ошибочные результаты распознавания с аудио, которые, по крайней мере, для моего уха кажутся совершенно понятными (не столько фоновый шум, частота дискретизации и глубина бита в соответствии с параметрами акустической модели и т. Д.).
Также эти аудиосигналы, которые неправильно распознаются, по-видимому, не сильно отличаются от тех, которые правильно распознаются (на самом деле они звучат почти так же, как и я).
Итак, я предполагаю, что в аудио есть что-то, что затрудняет распознавание, возможно, некоторые шумовые частоты или другие вещи, которые необходимо фильтровать? (фоновый шум, «поп» звуки речи, частоты вне полосы человеческого голоса и т. д.)
Короче говоря, вы знаете, что если pocketsphinx уже что-то делает, а если нет, знаете ли вы, применить фильтр/преобразование/etc для применения к аудиофайлу, чтобы улучшить результаты распознавания речи?
Спасибо!
Я не могу ответить на этот вопрос, но могу сказать, что у вас проблема XY: http://meta.stackexchange.com/questions/66377/what-is-the-xy-problem Без обмена кодом , никто не может сказать, нужна ли вам предварительная обработка или если в вашем коде есть ошибка. Не забудьте поделиться своим кодом и оптимально предоставить MVCE: http://stackoverflow.com/help/mcve – bodangly
@bodangly Я понимаю, но я использую pocketsphinx, который является стандартной и очень используемой библиотекой для этого. Итак, мой вопрос адресован другим пользователям или разработчикам pocketsphinx со знанием его внутренних компонентов. (что означает, что я пока не кодирую ничего, кроме API, вызывает pocketsphinx, которые тривиальны). – jotadepicas
Возможно, вам понадобится встроить код PocketSphinx для определения того, что является причиной различных решений вывода. – hotpaw2