В нашем проекте у нас есть требование проверить данные файла PDF. Но некоторые данные в файле PDF находятся в формате изображения, поэтому мы не можем применять ту же логику, что и для сравнения текста в PDF. Мы сталкиваемся с проблемой проверки текста изображения в файле PDF. Есть ли какой-либо API, из которого мы можем распознать OCR и извлечь текст из изображения и сравнить его.Есть ли способ протестировать изображение в файлах PDF?
0
A
ответ
0
Для работы с изображениями вы можете попробовать -
0
Можете ли вы предварительно обработать файлы PDF? Если да, попробуйте pdf2pdfocr (https://github.com/LeoFCardoso/pdf2pdfocr).
Отказ от ответственности: Я разработчик pdf2pdfocr.
Я бы посоветовал вам отделить проблему, сначала просто извлеките растровые изображения (должно быть возможно с использованием любой библиотеки общего назначения в формате PDF, если не используются расширенные цветовые пространства), а затем применить OCR к изображениям (для этой задачи есть несколько библиотек, слишком). – mkl