2013-09-19 2 views
4

Я ищу решение «все-в-одном» для создания файлов PDF с возможностью поиска (через OCR) из файлов PDF (сканированных документов) только для изображений (например, вызов командной строки из другой программы)Есть ли какое-либо решение для создания открытого PDF-файла для Windows?

I нашли некоторые программные пакеты:

  • pdfsandwich (его трудно портировать на системах Windows)
  • watchOCR (прекращенная :-()

Я играл ничуть тессеракт, но он поддерживает только одиночные изображения TIFF в виде а затем мне нужно объединить результат OCR с изображением, привязать все комбинированные страницы к новому PDF-документу.

Я пишу программы на основе Java, так инспектировать PDF-файлы и при необходимости он должен преобразовать их в доступные для поиска PDF-файлов (PDF с текстовым слоем, узнаваемые изображения с помощью OCR)

Было бы очень здорово, если есть какие-либо идея, как я мог бы упростить все эти отдельные шаги и использовать Tesseract для следующего процесса:

PDF с отсканированными изображениями =====> вход (обработка) выход ====> признан PDF с возможностью поиска текста

Большое спасибо заранее

наилучших пожеланий

Shannon

+0

Вы можете обновить свое окончательное решение? Я рассматриваю одну и ту же проблему, и некоторый общий опыт будет полезен – Zane

+0

Наконец, я нашел клей-программное обеспечение, которое называется «pdfsandwich» http://www.tobias-elze.de/pdfsandwich/index.html. Он объединяет несколько команд командной строки инструменты, такие как tesseract, .. Как я уже описал ранее, мне пришлось перекомпилировать скрипты, чтобы сделать их пригодными для использования на окнах – Shannon

+0

Спасибо за обновление. Придется попросить – Zane

ответ

1

Есть некоторые Java-основанные hOCR-на-PDF решение, перечисленное в 3rdParty страницы Тессеракта в. Сначала вам придется конвертировать PDF в изображения (используя Ghostscript, например), прежде чем отправлять их в Tesseract для преобразования в формат hOCR.

+0

Спасибо за этот намек - это было действительно полезно! – Shannon

1

Существует .Net Проект NAPS2, который принимает файл изображения в качестве входных данных и производить с возможностью поиска текста PDF file.It также обеспечивает командной строки для автоматизации utlity

0

Если онлайн решение OCR является приемлемым, то есть бесплатно ocr.space api, который включает опцию make PDFs searchable.

Это одношаговое решение. Вы отправляете изображение или PDF в api, и он возвращает ссылку для загрузки в pdf с возможностью поиска.