2012-05-29 3 views
1

Мне нужна утилита для пакетного преобразования TIFF-файлов в индексируемые PDF-файлы. Программное обеспечение должно работать на Linux и должно работать из командной строки. Программное обеспечение не должно быть открытым исходным кодом. Я попытался преобразовать, используя tesseract и hocr2pdf, однако они создают PDF-файл с искаженным текстом (Примечание: текст только искажается, если вы «выбираете весь текст в PDF»). Я нашел другие утилиты, но они работают только под Windows или не работают из командной строки. Заранее спасибо.Программное обеспечение командной строки для пакетного преобразования TIFF в индексный PDF

+0

возможно [это] (http://www.moreno.marzolla.name/software/scan_to_pdf/) может помочь –

+0

As Я отметил в своем вопросе, что уже написал программу для преобразования с использованием tesseract и hocr2pdf. Насколько мне известно, hocr2pdf - это единственный инструмент с открытым исходным кодом, способный делать индексный PDF-документ. Ваша ссылка не описывает ничего, что я еще не знал, извините. –

+0

Здесь есть две проблемы - получение OCR, а затем преобразование в PDF. Интересно, будет ли легче искать проблему, если вы сначала взглянете на OCR ваш TIFF на простой текст, а затем вы можете использовать что-то вроде 'wkhtmltopdf', чтобы впоследствии преобразовать его в PDF? – halfer

ответ

0

После того как вы попробовали несколько инструментов (включая Abbyy), я решил: Vividata. Они имеют приличную цену, работают под Linux и не имеют ограничения на страницу в год.

1

Mogrify должен быть в состоянии помочь вам:

http://linux.die.net/man/1/mogrify

+0

Я не вижу возможности сделать преобразованное изображение индексируемым. Можете ли вы предоставить пример использования? –

0

Этот ответ косая и лишь частично. Не обращайте внимания, если это не относится к вам.

Может существовать такое программное обеспечение, но я не знаком с ним. Если ваша потребность достаточно сильна, что вы напишете 2000 строк кода или так, чтобы ее встретить, тогда есть ориентированный на Linux Libpoppler,, который дает вам интерфейс для написания программы для создания собственного пользовательского PDF-файла точно так, как вы хотите Это. К сожалению, Libpoppler, хотя и ценный, не особенно приятен для кодирования; и, к сожалению, если вы сделаете код для этого, то вы, вероятно, обнаружите, что читаете длинные трактаты the PDF standard.

Если вы пишете такое программное обеспечение, вы можете рассмотреть его публикацию как с открытым исходным кодом.

Удачи.

1

Это exactlyu то, что вы ищете:

http://ocr4linux.com/en:start

командной строки OCR инструмент для Linux на основе лучших на рынке OCR от ABBYY. (Отказ от ответственности: я работаю для ABBYY)

+1

Спасибо, но я попробовал приобрести это программное обеспечение, и мой опыт был ужасным. Потребовалось несколько дней, чтобы продавец даже ответил, и я дважды цитировал, что было указано на веб-сайте. По-видимому, у них разные цены для людей в Европе и Соединенных Штатах. –

+0

Почему вы просто не купили онлайн? Продажи не занимаются этим продуктом очень часто, иногда может возникнуть путаница – Tomato

0

Я написал сценарий bash, который использует Tesseract 3 или Abbyy OCR 11. Он может конвертировать или запускать в режиме мониторинга каталога.

В вашем случае

pmocr.sh --batch --target=PDF /path/to/tiff/files 

Смотрите сценарий здесь: https://github.com/deajan/pmOCR

 Смежные вопросы

  • Нет связанных вопросов^_^