0

Я использую pocketsphinx для распознавания речи с использованием испанской акустической модели и грамматики JSGF с достойными результатами.Pocketsphinx - требуется предварительная обработка звука/рекомендуется?

Тем не менее, я получаю ошибочные результаты распознавания с аудио, которые, по крайней мере, для моего уха кажутся совершенно понятными (не столько фоновый шум, частота дискретизации и глубина бита в соответствии с параметрами акустической модели и т. Д.).

Также эти аудиосигналы, которые неправильно распознаются, по-видимому, не сильно отличаются от тех, которые правильно распознаются (на самом деле они звучат почти так же, как и я).

Итак, я предполагаю, что в аудио есть что-то, что затрудняет распознавание, возможно, некоторые шумовые частоты или другие вещи, которые необходимо фильтровать? (фоновый шум, «поп» звуки речи, частоты вне полосы человеческого голоса и т. д.)

Короче говоря, вы знаете, что если pocketsphinx уже что-то делает, а если нет, знаете ли вы, применить фильтр/преобразование/etc для применения к аудиофайлу, чтобы улучшить результаты распознавания речи?

Спасибо!

+0

Я не могу ответить на этот вопрос, но могу сказать, что у вас проблема XY: http://meta.stackexchange.com/questions/66377/what-is-the-xy-problem Без обмена кодом , никто не может сказать, нужна ли вам предварительная обработка или если в вашем коде есть ошибка. Не забудьте поделиться своим кодом и оптимально предоставить MVCE: http://stackoverflow.com/help/mcve – bodangly

+0

@bodangly Я понимаю, но я использую pocketsphinx, который является стандартной и очень используемой библиотекой для этого. Итак, мой вопрос адресован другим пользователям или разработчикам pocketsphinx со знанием его внутренних компонентов. (что означает, что я пока не кодирую ничего, кроме API, вызывает pocketsphinx, которые тривиальны). – jotadepicas

+1

Возможно, вам понадобится встроить код PocketSphinx для определения того, что является причиной различных решений вывода. – hotpaw2

ответ

1

Нет, любая предварительная обработка обычно весьма вредна для точности распознавания речи.

Современные алгоритмы распознавания речи сделаны так, что даже небольшая препроцессия может значительно улучшить результаты. Это не будет легко различимо вашим ухом, так как ваши возможности распознавания речи намного превосходят компьютерные. Такие вещи, как небольшое эхо, добавленное для улучшения естественности или простого сжатия/декомпрессии mp3, могут значительно снизить точность.

Решение для этого состоит в том, чтобы обучить модель из того же самого аудиосигнала, который вы хотите распознать, например, на основе декомпрессированного аудио в формате mp3 вместо чистого. Модель по умолчанию обучается чистому звуку и делает ее не очень надежной для звуковых изменений. У такого многоуровневого обучения есть свои недостатки, потому что он делает учебные данные очень большими, поэтому он все еще является предметом текущих исследований.