2012-03-19 2 views
1

Я ищу лучший способ конвертировать HTML в текст, используя только модули из стандартной библиотеки Python 2.7.x. (I.e., no BeautifulSoup и т. Д.)преобразование html-to-text с использованием только стандартной библиотеки Python

Посредством преобразования HTML-текста я подразумеваю моральный эквивалент lynx -dump. Фактически, просто избавиться от HTML-тегов разумно, и конвертировать все HTML-сущности в ASCII (или в кодировку с кодировкой UTF8) было бы достаточно.

Нет ответов на основе регулярных выражений, пожалуйста. (Реджимы не соответствуют задаче.)

Спасибо!

ответ

5

Python since 2.2 имеет HTMLParser module. Это не самый эффективный и не самый легкий использовать, но это там ...

И если вы имеете дело с правильным XHTML (или вы можете передать его через Tidy), вы можете использовать гораздо лучше ElementTree

from xml.etree.ElementTree import ElementTree 
tree = ElementTree() 
tree.parse("your_document.xhtml") 
your_string = tree.tostring(method="text", encoding="utf-8") 
-1

Я также предлагаю вам взглянуть на html2text.
Также взгляните на другой thread

+0

Я специально попросил ответы, которые требовали только модулей в стандартном распределении python; html2text отсутствует в стандартной библиотеке – kjo

 Смежные вопросы

  • Нет связанных вопросов^_^