Я хочу выполнить OCR на png и pdf-файлах. Я могу получить Tesseract 3.0.2 .net-обертку для png-файлов, но я не могу найти в нем какой-либо класс для файлов PDf. Так, это работает для pdf files.If не тогда, пожалуйста, дайте мне знать любую другую библиотеку с открытым исходным кодом для сканирования PDF-файлов. Мое требование - сканирование диаграмм в pdf для определенных кругов и создание гиперссылок для этих кругов.Работает ли tesseract OCR для .net с файлами PDF?
1
A
ответ
1
Нет, это не так. Сначала вам нужно извлечь изображения из PDF. Это можно сделать, используя pdfimagespdfimages.exe -j your.pdf
или gs, как предложено Zakk Diaz.
Вы можете конвертировать эти pdf-файлы в изображение, а затем использовать Tesseract. Есть некоторые коммерческие библиотеки, такие как Nuance, которые могут обрабатывать pdf-файлы; но цена довольно высока. –
Вы можете конвертировать PDF-файлы в pngs бесплатно с помощью ghostscript. Я буду за своим столом через несколько часов, чтобы поделиться своей реализацией. Я нашел его из другого сообщения SO. –
Вы пробовали PDFBox для синтаксического анализа PDF? бесплатный PDFBox? – Kiquenet