Я ищу лучший способ конвертировать HTML в текст, используя только модули из стандартной библиотеки Python 2.7.x. (I.e., no BeautifulSoup
и т. Д.)преобразование html-to-text с использованием только стандартной библиотеки Python
Посредством преобразования HTML-текста я подразумеваю моральный эквивалент lynx -dump
. Фактически, просто избавиться от HTML-тегов разумно, и конвертировать все HTML-сущности в ASCII (или в кодировку с кодировкой UTF8) было бы достаточно.
Нет ответов на основе регулярных выражений, пожалуйста. (Реджимы не соответствуют задаче.)
Спасибо!
Я специально попросил ответы, которые требовали только модулей в стандартном распределении python; html2text отсутствует в стандартной библиотеке – kjo