Как работает Shazam/soundhound?

Меня интересует, как работает шазам или звукорежиссер.Как работает Shazam/soundhound?

Как записать голос и сделать отпечаток пальца, который настолько близок к их базе данных отпечатков пальцев, что находит совпадение?

Я собираюсь начать писать какое-то программное обеспечение на C/C++, но не знаю, какие библиотеки использовать, видно, что у Microsoft есть какой-то речевой SDK. Разве у вас нет некоторых предложений, где начать «понимание» процесса анализа голоса и игры с ним?

Я был бы благодарен за каждый наконечник или идеи вы поделитесь:]

источник

2013-03-29 Wiggler Jtag

Я также заинтересован в этих алгоритмах, хотя вы должны решить, хотите ли вы знать, что алгоритм, или какие библиотеки использовать. Это два разных вопроса, а второй - для закрытия вопроса, я думаю (ответ «тот, который соответствует вашим потребностям»). – Spook

Я думаю, что c и C++ не являются правильными тегами для этого вопроса. – Etherealone

Хорошо согласны с тем, чтобы не писать C/C++. Я хотел бы знать, есть ли у кого-то знания в Spectrogram, Acoustic fingerprint и т. Д. И может объяснить в нескольких предложениях, куда идти:] –

Есть некоторые существующие части программного обеспечения, вы можете посмотреть по адресу:

AudioDB: C++

ртутного репо: http://code.soundsoftware.ac.uk/projects/audiodb/

Соник Visualiser: Библиотеки SV написаны на C++ с использованием Qt4

https://code.soundsoftware.ac.uk/projects/sonic-visualiser

источник

2013-03-29 12:56:43 hyponym

Спасибо! Я посмотрю на это. –

Также есть много других проектов, например. ** CAMEL ** (Content-based Audio and Music Extraction Library) - это простая в использовании платформа C++, разработанная для контентного аудио и музыкального анализа. Структура предоставляет набор инструментов для легкой сегментации, выделения функций, извлечения домена и т. Д. Https: //code.soundsoftware.ac.uk/projects/camel – hyponym

ответ

Смежные вопросы