2009-08-20 2 views
6

Я только что взял на себя Stackoverflow data dump, и я разочарован тем, что поле тела сообщений в HTML, а не Markdown. Я подозреваю, что Markdown в исходной базе данных, потому что это то, что я вижу, если попытаюсь отредактировать ответ.Каков самый простой способ преобразования дампа данных SO из HTML обратно в Markdown?

Я хочу восстановить Markdown из большого набора ответов. Я буду обрабатывать сотни записей в пакетном режиме, используя либо инструменты командной строки, либо какую-то библиотеку Lua или C, поэтому интерактивный инструмент, такой как wmd Markdown editor, не подходит. Могут ли люди сказать Какие инструменты доступны, чтобы помочь мне восстановить Markdown из дампа данных Stackoverflow?


(Относящиеся вопрос, а не дубликат:. Convert HTML back to Markdown within wmd)

ответ

5

Markdownify преобразует HTML в Markdown.

Смотрите также: MetaSO/Can Markdown be recovered from the SO data dump?

+0

Норман должен знать, что он задал этот вопрос тоже! :) –

+0

Когда дело доходит до использования PHP в командной строке, я троглодит. Я не могу понять из руководства, если есть библиотечная функция для чтения всего содержимого файла. Является ли dio_read (STDIN) на правильном пути? –

+0

Если вы хотите прочитать содержимое файла, есть много способов - простая функция, которая делает это 'file_get_contents();' – Sampson

2

посмотрите на pandoc: http://johnmacfarlane.net/pandoc/

есть инструмент html2markdown в комплекте с pandoc, который работает довольно хорошо, и программа запускается из командной строки, что делает пакетное преобразование довольно приятным.

здесь люди страница: http://johnmacfarlane.net/pandoc/html2markdown.1.html

+0

Выглядит потрясающе! Я обязательно проверю это. –