Я использую Xpdf для извлечения текста из PDF-файлов, которые хорошо работают с -raw
вариантами, но теперь мы хотим, чтобы преобразовать PDF файлы в HTML-файлы для извлечения тегов HTML форматирования как смелого < б >, курсив < я > и т.д. с текст. Xpdf с опцией действительно работает, я также пробовал использовать pdf2html для этого, но не нашел это надежным, как теги, такие как <sup> и <sub> где отсутствует.Есть ли способ использовать Acrobat Reader в Perl для сохранения нескольких файлов PDF в виде файлов HTML?
Теперь мы используем Acrobat Reader для сохранения файлов PDF в виде HTML-файлов, которые дают нам все теги форматирования HTML.
Есть ли способ использовать Acrobat Reader в Perl для сохранения нескольких файлов PDF в виде файлов HTML?
спасибо.
Вам действительно нужно сделать это с Perl или что-нибудь, что может контролировать работу внешнего приложения? –
Этого не должно быть в Perl, любое другое приложение будет делать. Единственное, что он должен иметь возможность конвертировать несколько файлов. –