У меня возникла проблема с обработкой более миллиона аудиофайлов (из созданного пользователем видеоконтента), которые могли быть изменены (в основном, для резки) и загруженные в различные качества. Моя задача - сопоставить все дубликаты с одним идентификатором элемента, чтобы мы могли позже фильтровать, чтобы просто показывать эти видеоролики с полной длиной и лучшим качеством.Найти дублированный контент среди миллионов редактируемых пользователем аудиофайлов (хеширование аудиосодержания)
Поскольку визуальная разница между видео может не различаться между разными файлами, мы хотели бы использовать звуковые дорожки для наших целей. Вот почему я ищу хеширование аудиосодержания, которое было бы устойчивым к таким вещам, как описано выше. Вы могли бы назвать это проблемой «Шазам».
Мой вопрос: что бы вы считали самым простым способом найти эти потенциальные дубликаты (можно выполнить ручное утверждение)?
Подзапросом будет: как бы вы решили проблему не обрабатывать фазовые фрагменты аудиофайлов (убедитесь, что хэш-вход из двух аудиодисков различной длины всегда одинаковый).
Мой нынешний подход состоял в том, чтобы обрабатывать аудио и с каждым локальным максимумом звуковой волны в течение заданного временного окна генерировать какой-то хэш на следующем 20-30-секундном фрагменте. Я могу легко хранить несколько десятков хэшей для каждого файла, если процесс дублирования поиска - это своего рода поиск по ключевым словам, а не перекресток со всеми другими хэшами.
У меня нет метаданных или чего-нибудь еще, что можно было бы использовать.
Работает в основном для музыки, возможно, для речи, а не для общих звуков/шумов – DrKoch
Спасибо за бумагу - я посмотрю. Моя проблема в том, что в большинстве случаев это не музыка. –