2016-09-15 13 views
0

Я пытаюсь конвертировать Docx в Html, но Docx может содержать изображения, уравнение MathType в WMF формата и слово уравнений в формате tex с $ разделителями.Преобразование MathType уравнения из слова DOCX к уравнениям слова, используя рубин

Я попытался преобразования Docx в Html с помощью pandoc и LibreOffice:

Проблемы с использованием pandoc: Pandoc пропустить уравнения MathType, так что я должен был прочитать document.xml и преобразовать WMF в PNG с помощью gimp's convert инструмент командной строки.

Это ставит некоторые из уравнений в очень нечитаемом формате.

Проблемы с использованием libreoffice: На самом деле он очень хорошо конвертирует целые документы в HTML, но уравнения слов вырезаются из сторон во время преобразования.

Что я хочу - это инструмент, который может преобразовывать Docx в Html, и он преобразует уравнения MathType, а также уравнения слова как в формат tex.

Я хочу сделать это предпочтительно в рубине, но любое обходное решение или идеи также приветствуются.

Спасибо.

ответ

1

Читатель pandoc docx supports only OMML математика, а не старый MathType.

Вы можете написать pandoc filter, который найдет математику в pandoc AST (она будет там как обычный текст) и преобразует их в pandoc math elements, которые создатель pandoc LaTeX автоматически преобразует в TeX-математику.