2016-05-03 3 views
1

Для обнаружения речи я играл с этой командой Сокса:сокса эффекта: перезапускаемое молчание

rec voice.wav silence 1 5 30% 1 0:00:02 30% 

Он должен начать запись, когда объем входного поднимает около порога на 30% и останавливается через 2 секунды аудио падениях ниже того же порога.

Это работает. Но было бы намного лучше, если бы оно могло «перезапускаться». Я имею в виду: после того, как звук падает ниже порога, и звук снова поднимается, он должен продолжить регистрацию (то есть пользователь все еще говорит).

Он должен останавливаться только тогда, когда он обнаруживает тишину целых 2 секунды. Или вы рекомендуете использовать любой другой инструмент «VOX»?

+0

Документ говорит: «Для периодов ниже периода длительность указывает период молчания, который должен существовать до того, как звук больше не копируется. Указав более высокую продолжительность, тишина, которая требуется, может быть оставлена ​​в звуке. Например, если у вас есть песня с ожидаемой 1 секундой тишины в середине и 2 секунды молчания в конце, для прохода средней тишины можно использовать продолжительность 2 секунды ». поэтому он ДОЛЖЕН работать, как я ожидаю. – Mark

ответ

1

Я провел много времени, экспериментируя с SOX, чтобы делать VOX и получил его для работы достаточно хорошо. Я использовал Audacity для просмотра результирующей формы волны, и остановился на следующую команде SOX ...

rec snd.wav silence 1 .5 2.85% 1 1.0 3.0% vad gain -n : newfile : restart 

Это будет:

  • ждать, пока она не слышит активность выше порога для (пауза 1 .5 2.85%)
  • прекратить запись, когда звуковая активность падает до нуля в течение одной секунды (... 1 1,0 3,0%)
  • обрезать любую начальную тишину до обнаружения голоса (vad)
  • нормализуют усиления (усиление -n)
  • магазин результат в новый файл (snd001.wav, snd002.wav)
  • перезапуск процесса

Получение «молчание» числа правильных участвует много от проб и ошибок и будет зависеть от окружающего шума, а также от чувствительности вашего микрофона. Я использую микрофон в Logitech QuickCam IM на Raspberry Pi через USB.

На стороне записки, вся эта вещь жалуется следующее ...

rec FAIL formats: can't open input `default': snd_pcm_open error: No such file or directory 

... пока я не создал эту переменную в среде:

export AUDIODEV=hw:1,0 

Опять же - это вовлечено много экспериментов со значениями для «тишины», и для этого вам потребуется небольшая настройка.