Какие хорошие библиотеки существуют на любом распространенном языке для преобразования PDF в HTML?Как конвертировать PDF в HTML?
ответ
В Perl вы можете использовать плагин SWISH::FilterSWISH::Filters::Pdf2HTML. (Требуется xpdf package.)
Для обратной (HTML-PDF) см. this question.
, если вы ищете способ конвертировать PDF в HTML один или два раза, то я рекомендую Adobe Online Conversion
Если это API вы после то http://www.pdfonline.com/ есть SDK, который должен удовлетворить ваши потребности.
Если это ваша библиотека, пожалуйста, сообщите нам, какой серверный язык вы предпочитаете.
Спасибо Russ! До сих пор я использую Adobe Online. Я пробовал веб-сайт, и результаты трудно оценить. Но спасибо за помощь! – user178644
Кажется, что он больше не работает. Перенаправление в PDF Creator –
Если вы работаете в ящике Windows, я думаю, у Amyuni есть библиотека для этого. Их PDF Document Convertor доступен как DLL, может широко использоваться среди языков, поддерживаемых Visual Studio, и может конвертировать в RTF, TML, EXCEL, JPEG и TIFF.
Учитывая неопределенность первоначального вопроса, я собираюсь идти дальше и дать решение, которое будет работать на любом языке, который может выполнять приложения с командной строкой. Хотя для настройки можно немного запутаться, OpenOffice может быть запущен в режиме безголового на сервере и с помощью jodconverter может конвертировать любой формат файла в любой другой формат файла (ну, любые преобразования формата, которые openoffice могут обрабатывать , то есть).
Вот несколько ссылок, которые помогут с установкой:
http://www.lowagie.com/iText/ Opensource библиотека как Java и C#
Это, вероятно, лучший выбор. Разбирайте PDF с помощью библиотеки и генерируйте HTML из данных. – TJB
PDFBox в apache имеет крышку для удаления html способность. http://pdfbox.apache.org/
Программа pdftohtml преобразует PDF в HTML и XML и сохраняет информацию о местоположении текста, который является полезным для скребковых таблиц ..
Это, как представляется, на основе библиотеки Xpdf и имеет окна бинарного тоже.
Теперь это входит в состав утилиты 'poppler'. 'yum install poppler', если он еще не установлен. –
В Linux установить pdftohtml - Для пакетной конвертации всех файлов в папке использования:
ls *.pdf | xargs -I{} pdftohtml {}
Это позволит создать HTML сайт со всеми ссылками и изображениями из оригинальных документов. Каждая страница в отдельном html-файле. Очень полезно преобразовать проектную документацию для поиска файлов по фразе, используя общий поиск системного файла.
Попытка превратить его в вопрос программирования. И я вижу много вопросов, идущих от HTML к PDF, но не наоборот, поэтому, вероятно, стоит его сохранить? – Cruachan
Это абсолютно субъективно. Повторите свой вопрос, чтобы не быть субъективным и немного рассказать о том, что вы пытаетесь сделать. –
Я де-субъективировал вопрос и пересказывал его тем, что, как я думаю, задает ОП. Жаль, что у SO нет функции для удаления закрытых голосов. – Ether