Я знаю, что подобие косинуса можно использовать для измерения того, как два изображения или аудио похожи.Как представить изображение или аудио через векторы для сходства косинусов?
Но я не понимаю, как изображение может быть представлено как вектор N-мер. Для текстового документа d
каждый размер i-th
представляет собой термин t_i
, а его скалярная составляющая представляет собой частоту внутри документа. Проблема в том, что я не могу определить одно и то же «отображение» для файла изображения (или аудио).
Единственное решение, которое меня охватывает, состоит в том, что мы имеем вектор в M-измерениях, где M - количество пикселей в изображениях (миллионы измерений? Это безумие!), и значение «сколько темный пиксель «с максимальным значением, представляющим белый, но я твердо думаю, что это решение не используется. Я понятия не имею, как это можно сделать для аудиофайла.
Извините, но я понимаю, что эта техника делает перевод с изображения на звук, что не то, что я просил: я хотел знать, как создать вектор в размерности N (где, вероятно, N большой) из изображение и как сделать то же самое, но с источником звука вместо изображения – justHelloWorld