2016-05-30 5 views
0

В нашем проекте у нас есть требование проверить данные файла PDF. Но некоторые данные в файле PDF находятся в формате изображения, поэтому мы не можем применять ту же логику, что и для сравнения текста в PDF. Мы сталкиваемся с проблемой проверки текста изображения в файле PDF. Есть ли какой-либо API, из которого мы можем распознать OCR и извлечь текст из изображения и сравнить его.Есть ли способ протестировать изображение в файлах PDF?

+1

Я бы посоветовал вам отделить проблему, сначала просто извлеките растровые изображения (должно быть возможно с использованием любой библиотеки общего назначения в формате PDF, если не используются расширенные цветовые пространства), а затем применить OCR к изображениям (для этой задачи есть несколько библиотек, слишком). – mkl

ответ

0

Для работы с изображениями вы можете попробовать -

  1. Java для сравнения изображений, но это будет очень трудно обрабатывать коды с в ходе реализации проекта.

  2. Я обычно использую sikuli для реорганизации изображения цели, и она работает очень хорошо плз скачать sikuli форму here и рабочий пример с sikuli плз посмотреть на here.

0

Можете ли вы предварительно обработать файлы PDF? Если да, попробуйте pdf2pdfocr (https://github.com/LeoFCardoso/pdf2pdfocr).

Отказ от ответственности: Я разработчик pdf2pdfocr.