2009-07-27 4 views
0

Я использую Xpdf для извлечения текста из PDF-файлов, которые хорошо работают с -raw вариантами, но теперь мы хотим, чтобы преобразовать PDF файлы в HTML-файлы для извлечения тегов HTML форматирования как смелого < б >, курсив < я > и т.д. с текст. Xpdf с опцией действительно работает, я также пробовал использовать pdf2html для этого, но не нашел это надежным, как теги, такие как <sup> и <sub> где отсутствует.Есть ли способ использовать Acrobat Reader в Perl для сохранения нескольких файлов PDF в виде файлов HTML?

Теперь мы используем Acrobat Reader для сохранения файлов PDF в виде HTML-файлов, которые дают нам все теги форматирования HTML.

Есть ли способ использовать Acrobat Reader в Perl для сохранения нескольких файлов PDF в виде файлов HTML?

спасибо.

+0

Вам действительно нужно сделать это с Perl или что-нибудь, что может контролировать работу внешнего приложения? –

+0

Этого не должно быть в Perl, любое другое приложение будет делать. Единственное, что он должен иметь возможность конвертировать несколько файлов. –

ответ

2

Информация в формате PDF полностью произвольна и не может быть надежно сопоставлена ​​с HTML любым значимым способом. Одна из стратегий, с которой мне повезло, состоит в том, чтобы использовать опцию -xml для pdftohtml, а затем использовать LibXML, чтобы применить некоторые эвристики к выходу и придумать разумную HTML-аппроксимацию исходного документа.