2013-04-27 4 views
13

Я хотел бы иметь возможность взять существующий фрагмент HTML и преобразовать его в уценку. Я попытался pandoc для этой цели:Как преобразовать HTML в Markdown при сохранении немаркированных HTML-тегов?

pandoc test.html -o test.md 

где test.html выглядел следующим образом:

Hello 

<!-- more --> 

and some more text 

<h2>some heading</h2>  

Результат был следующим образом:

Hello and some more text 

some heading 
------------ 

Таким образом, это не только новообращенные теги, которые имеют прямое значение в уценке. Он также удаляет теги, которые я хотел бы сохранить как HTML (например, комментарии HTML, iframe теги и т. Д.).

  • Как преобразовать HTML в уценку таким образом, чтобы любые теги, которые не имеют эквивалента в уценке, сохраняются как необработанный HTML?
  • В целом, как я могу контролировать, как делается преобразование HTML для уценки?

В частности, меня бы интересовали параметры командной строки. Например, возможно, есть опции, которые могут быть предоставлены pandoc.

+2

интересный, у меня есть обратная проблема. Он держит divs, пока я не просил об этом – Sebas

ответ

17

После немного большего поиска я прочитал о опции --parse-raw в thread on table parsing.

Добавление опции --parse-raw, казалось бы, не разделило эквивалентные HTML-теги без разметки.

pandoc test.html -o test.md --parse-raw