Я ищу решение «все-в-одном» для создания файлов PDF с возможностью поиска (через OCR) из файлов PDF (сканированных документов) только для изображений (например, вызов командной строки из другой программы)Есть ли какое-либо решение для создания открытого PDF-файла для Windows?
I нашли некоторые программные пакеты:
- pdfsandwich (его трудно портировать на системах Windows)
- watchOCR (прекращенная :-()
Я играл ничуть тессеракт, но он поддерживает только одиночные изображения TIFF в виде а затем мне нужно объединить результат OCR с изображением, привязать все комбинированные страницы к новому PDF-документу.
Я пишу программы на основе Java, так инспектировать PDF-файлы и при необходимости он должен преобразовать их в доступные для поиска PDF-файлов (PDF с текстовым слоем, узнаваемые изображения с помощью OCR)
Было бы очень здорово, если есть какие-либо идея, как я мог бы упростить все эти отдельные шаги и использовать Tesseract для следующего процесса:
PDF с отсканированными изображениями =====> вход (обработка) выход ====> признан PDF с возможностью поиска текста
Большое спасибо заранее
наилучших пожеланий
Shannon
Вы можете обновить свое окончательное решение? Я рассматриваю одну и ту же проблему, и некоторый общий опыт будет полезен – Zane
Наконец, я нашел клей-программное обеспечение, которое называется «pdfsandwich» http://www.tobias-elze.de/pdfsandwich/index.html. Он объединяет несколько команд командной строки инструменты, такие как tesseract, .. Как я уже описал ранее, мне пришлось перекомпилировать скрипты, чтобы сделать их пригодными для использования на окнах – Shannon
Спасибо за обновление. Придется попросить – Zane