1

Я строю модель распознавания звука для обнаружения звука «ding-dong».Признать звук «ding-dong»

Существует две процедуры, обучение и тестирование.

Данные обучения представляют собой звуки «ding-dong», генерируемые устройством.

Модель может обнаруживать звуки «ding-dong», генерируемые одним и тем же устройством, и работает хорошо.

Но, когда есть новый звук «ding-dong», генерируемый вторым устройством, производительность будет плохой.

Я знаю возможное решение этой проблемы: записывать звук «ding-dong», генерируемый вторым устройством, и добавлять его к данным обучения.

Но всегда есть новое устройство, новый звук «ding-dong».

Что мне делать?

ответ

2

Вы столкнулись с проблемой переобучения. Overfitting означает, что ваша модель тренировалась для оптимальной работы по конкретным случаям, которые являются набором данных обучения. Чтобы преодолеть эту проблему, вы должны обучить свою модель на многих устройствах, а затем сделать интерполяцию между ними. Модель, которую вы используете, может быть гарантирована интерполяцией.

Однако предыдущая информация является общей. В вашем случае вы можете найти гораздо более простой способ сделать это. Все зависит от того, как вы определяете «ding-dong». Если бы вы могли найти сигунтур для «ding-dong», это было бы здорово. Эта сигнатура должна быть инвариантной ко всем нежелательным функциям.

Например, следует принять «Diiiiing-doooooong»? если да, то вы должны найти подпись, которая не зависит от длины аудиоклипа. Является ли «ding-dong» с более высокой частотой приемлемым? Если да, вы должны найти подпись, которая принимает частоты как доли друг друга, а не как абсолютные значения и т. Д.

BTW, я уверен, что вы можете сделать это и найти много статей о своей проблеме, но это может быть о «dang-dong», а не «ding-dong», но вы все равно сможете извлечь из этого выгоду;)

1

Итак, вы хотите распознать «звуки ding dong» из «других звуков».

Одним из подходов может быть подготовка данных для распознавания «других звуков» как другого класса. Поэтому новый ding dong можно было бы легче связать с «звуками динг-донга», чем «другие-звуки».

Одним из недостатков этого метода может быть рост числа «ложных тревог», но эта задача всегда приводит к компромиссу между точностью и отзывом.

 Смежные вопросы

  • Нет связанных вопросов^_^