Мне нужно найти огромную базу данных изображений, чтобы найти возможный дубликат, используя pHash, предполагая, что эти записи изображений имеют хэш-код, сгенерированный с помощью pHash.Использование pHash для поиска огромной базы данных изображений, каков наилучший подход?
Теперь мне нужно сравнить новое изображение, и я должен создать хэш для этого, используя pHash для существующих записей. Но в моем понимании есть сравнение не прямо вперед, как
hash1 - has2 < threshold
Похоже, мне нужно, чтобы передать оба хэш-коды в pHash API, чтобы сделать matching.So я должен получить все хэш-коды из БД в партии и сравнить один за другим с помощью API pHash.
Но это выглядит не лучшим образом, если у меня есть около 1000 изображений в очереди для сравнения с миллионами уже выходящих изображений.
Мне нужно знать следующее.
- Мое понимание/подход при использовании pHash для сравнения с существующим изображением db является правильным?
- Есть ли лучший способ справиться с этим (без использования библиотек cbir, таких как lire)?
- Я слышал, что существует алгоритм, называемый dHash, который также может использоваться для сравнения изображений с хеш-кодами .. есть ли какие-либо java-библиотеки для этого и может ли это использоваться вместе с pHash для оптимизации этой задачи большого изображения и повторного изображения задачи обработки.
Заранее спасибо.
Спасибо, это было полезно. –