2016-12-27 8 views
1

Я хочу выполнить OCR на png и pdf-файлах. Я могу получить Tesseract 3.0.2 .net-обертку для png-файлов, но я не могу найти в нем какой-либо класс для файлов PDf. Так, это работает для pdf files.If не тогда, пожалуйста, дайте мне знать любую другую библиотеку с открытым исходным кодом для сканирования PDF-файлов. Мое требование - сканирование диаграмм в pdf для определенных кругов и создание гиперссылок для этих кругов.Работает ли tesseract OCR для .net с файлами PDF?

+0

Вы можете конвертировать эти pdf-файлы в изображение, а затем использовать Tesseract. Есть некоторые коммерческие библиотеки, такие как Nuance, которые могут обрабатывать pdf-файлы; но цена довольно высока. –

+0

Вы можете конвертировать PDF-файлы в pngs бесплатно с помощью ghostscript. Я буду за своим столом через несколько часов, чтобы поделиться своей реализацией. Я нашел его из другого сообщения SO. –

+0

Вы пробовали PDFBox для синтаксического анализа PDF? бесплатный PDFBox? – Kiquenet

ответ

1

Нет, это не так. Сначала вам нужно извлечь изображения из PDF. Это можно сделать, используя pdfimagespdfimages.exe -j your.pdf или gs, как предложено Zakk Diaz.