Найти дублированный контент среди миллионов редактируемых пользователем аудиофайлов (хеширование аудиосодержания)

У меня возникла проблема с обработкой более миллиона аудиофайлов (из созданного пользователем видеоконтента), которые могли быть изменены (в основном, для резки) и загруженные в различные качества. Моя задача - сопоставить все дубликаты с одним идентификатором элемента, чтобы мы могли позже фильтровать, чтобы просто показывать эти видеоролики с полной длиной и лучшим качеством.Найти дублированный контент среди миллионов редактируемых пользователем аудиофайлов (хеширование аудиосодержания)

Поскольку визуальная разница между видео может не различаться между разными файлами, мы хотели бы использовать звуковые дорожки для наших целей. Вот почему я ищу хеширование аудиосодержания, которое было бы устойчивым к таким вещам, как описано выше. Вы могли бы назвать это проблемой «Шазам».

Мой вопрос: что бы вы считали самым простым способом найти эти потенциальные дубликаты (можно выполнить ручное утверждение)?

Подзапросом будет: как бы вы решили проблему не обрабатывать фазовые фрагменты аудиофайлов (убедитесь, что хэш-вход из двух аудиодисков различной длины всегда одинаковый).

Мой нынешний подход состоял в том, чтобы обрабатывать аудио и с каждым локальным максимумом звуковой волны в течение заданного временного окна генерировать какой-то хэш на следующем 20-30-секундном фрагменте. Я могу легко хранить несколько десятков хэшей для каждого файла, если процесс дублирования поиска - это своего рода поиск по ключевым словам, а не перекресток со всеми другими хэшами.

У меня нет метаданных или чего-нибудь еще, что можно было бы использовать.

источник

2015-06-07 Manuel Arwed Schmidt

Существует очень хорошее описание, как Shazam работает внутри:

An Industrial-Strength Audio Search Algorithm

Они ищут компонентов наиболее известных частотных и их относительного расстояния и хранить эти расстояния в умном способе, который позволяет быстрый поиск и совпадение.

Это может показаться очень сложным, но для надежной отпечатки аудиофайлов требуется некоторое усилие, это вовсе не тривиальная проблема.

источник

2015-06-07 08:18:58 DrKoch

Работает в основном для музыки, возможно, для речи, а не для общих звуков/шумов – DrKoch

Спасибо за бумагу - я посмотрю. Моя проблема в том, что в большинстве случаев это не музыка. –

Найти дублированный контент среди миллионов редактируемых пользователем аудиофайлов (хеширование аудиосодержания)

ответ

Смежные вопросы