преобразование html-to-text с использованием только стандартной библиотеки Python

Я ищу лучший способ конвертировать HTML в текст, используя только модули из стандартной библиотеки Python 2.7.x. (I.e., no BeautifulSoup и т. Д.)преобразование html-to-text с использованием только стандартной библиотеки Python

Посредством преобразования HTML-текста я подразумеваю моральный эквивалент lynx -dump. Фактически, просто избавиться от HTML-тегов разумно, и конвертировать все HTML-сущности в ASCII (или в кодировку с кодировкой UTF8) было бы достаточно.

Нет ответов на основе регулярных выражений, пожалуйста. (Реджимы не соответствуют задаче.)

Спасибо!

источник

2012-03-19 kjo

Python since 2.2 имеет HTMLParser module. Это не самый эффективный и не самый легкий использовать, но это там ...

И если вы имеете дело с правильным XHTML (или вы можете передать его через Tidy), вы можете использовать гораздо лучше ElementTree

from xml.etree.ElementTree import ElementTree 
tree = ElementTree() 
tree.parse("your_document.xhtml") 
your_string = tree.tostring(method="text", encoding="utf-8")

источник

2012-03-19 15:32:26 vartec

-1

Я также предлагаю вам взглянуть на html2text.
Также взгляните на другой thread

источник

2012-03-19 21:05:21 kiran

Я специально попросил ответы, которые требовали только модулей в стандартном распределении python; html2text отсутствует в стандартной библиотеке – kjo

преобразование html-to-text с использованием только стандартной библиотеки Python

ответ

Смежные вопросы