Работает ли tesseract OCR для .net с файлами PDF?

Я хочу выполнить OCR на png и pdf-файлах. Я могу получить Tesseract 3.0.2 .net-обертку для png-файлов, но я не могу найти в нем какой-либо класс для файлов PDf. Так, это работает для pdf files.If не тогда, пожалуйста, дайте мне знать любую другую библиотеку с открытым исходным кодом для сканирования PDF-файлов. Мое требование - сканирование диаграмм в pdf для определенных кругов и создание гиперссылок для этих кругов.Работает ли tesseract OCR для .net с файлами PDF?

источник

2016-12-27 V K

Вы можете конвертировать эти pdf-файлы в изображение, а затем использовать Tesseract. Есть некоторые коммерческие библиотеки, такие как Nuance, которые могут обрабатывать pdf-файлы; но цена довольно высока. –

Вы можете конвертировать PDF-файлы в pngs бесплатно с помощью ghostscript. Я буду за своим столом через несколько часов, чтобы поделиться своей реализацией. Я нашел его из другого сообщения SO. –

Вы пробовали PDFBox для синтаксического анализа PDF? бесплатный PDFBox? – Kiquenet

Нет, это не так. Сначала вам нужно извлечь изображения из PDF. Это можно сделать, используя pdfimagespdfimages.exe -j your.pdf или gs, как предложено Zakk Diaz.

источник

2016-12-29 14:59:25 Stef

Работает ли tesseract OCR для .net с файлами PDF?

ответ

Смежные вопросы