Меня интересует, как работает шазам или звукорежиссер.Как работает Shazam/soundhound?
Как записать голос и сделать отпечаток пальца, который настолько близок к их базе данных отпечатков пальцев, что находит совпадение?
Я собираюсь начать писать какое-то программное обеспечение на C/C++, но не знаю, какие библиотеки использовать, видно, что у Microsoft есть какой-то речевой SDK. Разве у вас нет некоторых предложений, где начать «понимание» процесса анализа голоса и игры с ним?
Я был бы благодарен за каждый наконечник или идеи вы поделитесь:]
Я также заинтересован в этих алгоритмах, хотя вы должны решить, хотите ли вы знать, что алгоритм, или какие библиотеки использовать. Это два разных вопроса, а второй - для закрытия вопроса, я думаю (ответ «тот, который соответствует вашим потребностям»). – Spook
Я думаю, что c и C++ не являются правильными тегами для этого вопроса. – Etherealone
Хорошо согласны с тем, чтобы не писать C/C++. Я хотел бы знать, есть ли у кого-то знания в Spectrogram, Acoustic fingerprint и т. Д. И может объяснить в нескольких предложениях, куда идти:] –