2010-07-07 5 views
39

Я искал googled (не повезло) для open source software that can convert doc, ppt, and pdf to HTML5. (Именно то, что Scribd) Есть ли эквиваленты с открытым исходным кодом для типа конвертации Scribd?Convert pdf, doc, ppt to html5

Если кто-либо знает о платной услуге, это также сработает. Scribd имеет API, но это для использования с программой просмотра Flash. Кроме того, я бы хотел, чтобы размещал мой собственный контент, так как мне нужен дополнительный контроль над преобразованным html-документом.

+0

Привет, там! Любая удача с этим? –

ответ

1

http://wvware.sourceforge.net/

wvHtml: конвертировать документ Word, в HTML4.0.

Возможно: http://www.abisource.com/ , но в данном случае это выглядит как «открытый документ»> «экспорт HTML» вручную, может быть, плагины помощи. Не уверен, что вы имеете в виду: «исходное программное обеспечение, которое может конвертировать».

Или это: http://www.zope.org/Members/sf/NuxDocument

Также pdftohtml даст вам страницу HTML output.But вам придется работать над его графическим interface.Since не кажется очень интерактивным.

15

Вы вряд ли найдете одно предложение, которое сделает все это, особенно в мире с открытым исходным кодом. Скорее всего, вы в конечном итоге опираясь на мишмары вещей, и может даже понадобиться связать некоторые конвертеры, чтобы добраться до HTML. (Например, PDF -> ps -> HTML)

OpenOffice поддерживает преобразование в HTML и может вызываться из командной строки.

http://pdftohtml.sourceforge.net/ выглядит достаточно хорошо при преобразовании pdf в html.

Для Doc, который является Word ML или OpenXML-форматом, можно предположить, что вы можете использовать преобразования XSLT, поскольку форматы ввода и вывода являются XML. Я видел несколько таблиц стилей, плавающих вокруг сети, которые делают это, но YMMV.

Кстати, почему существует специальное требование для открытого источника? MS Powerpoint уже поддерживает save-as-HTML, например.

+1

+1 для OpenOffice – vladr

+0

старая версия powerpoint, используемая для экспорта серии изображений для контента, такого как pdfs to html. Возможно, это изменилось, поскольку я не пробовал это через некоторое время. –

+0

Pdftohtml просто дает один вывод на странице html, но выглядит не очень приятно. В результате сложный вывод дает хороший вывод html, но затем он создает отдельный html-документ для каждой страницы в pdf. Это может быть невыполнимо для большого количества PDF-файлов. – Daenarys

5

Open Office конвертирует PDF в html, но вы получите хитрость для дизайна.

Я предлагаю либо: Crocodoc в качестве платной услуги (предоставляет различные ароматы для различных платформ, таких как Python, Ruby, Java, PHP Разработчики могут работать на их API.) Или ждать официального инструмента Adobe (это в работах).

+3

Crocodoc теперь свободен :) – Viral

+0

благодарит за обновление –

1

Для PDF есть открытый проект запускается Mozilla, и это очень хорошо: https://github.com/mozilla/pdf.js/

Вы можете увидеть привет мир пример: https://github.com/mozilla/pdf.js/tree/master/examples/helloworld

Для остальных типов документов я думаю, что LibreOffice сказал, что это планируя строить что-то в html5, но пока ничего не сделано.

-1

Я знаю, что этот вопрос является староват, однако я нашел новый инструмент с открытым исходным кодом под названием flaxpaper http://flexpaper.devaldi.com/

+0

ОК, с открытым исходным кодом теперь они платят за обслуживание. с годами все изменилось –

3

Для PDF для преобразования HTML, pdf2htmlEX кажется довольно хороший инструмент (если смотреть на все примеры/образцы):

https://github.com/coolwanglu/pdf2htmlEX