Есть ли способ протестировать изображение в файлах PDF?

В нашем проекте у нас есть требование проверить данные файла PDF. Но некоторые данные в файле PDF находятся в формате изображения, поэтому мы не можем применять ту же логику, что и для сравнения текста в PDF. Мы сталкиваемся с проблемой проверки текста изображения в файле PDF. Есть ли какой-либо API, из которого мы можем распознать OCR и извлечь текст из изображения и сравнить его.Есть ли способ протестировать изображение в файлах PDF?

источник

2016-05-30 SacTan

Я бы посоветовал вам отделить проблему, сначала просто извлеките растровые изображения (должно быть возможно с использованием любой библиотеки общего назначения в формате PDF, если не используются расширенные цветовые пространства), а затем применить OCR к изображениям (для этой задачи есть несколько библиотек, слишком). – mkl

Для работы с изображениями вы можете попробовать -

Java для сравнения изображений, но это будет очень трудно обрабатывать коды с в ходе реализации проекта.
Я обычно использую sikuli для реорганизации изображения цели, и она работает очень хорошо плз скачать sikuli форму here и рабочий пример с sikuli плз посмотреть на here.

источник

2016-05-31 06:27:59

Можете ли вы предварительно обработать файлы PDF? Если да, попробуйте pdf2pdfocr (https://github.com/LeoFCardoso/pdf2pdfocr).

Отказ от ответственности: Я разработчик pdf2pdfocr.

источник

2016-06-05 16:40:30

Есть ли способ протестировать изображение в файлах PDF?

ответ

Смежные вопросы