Я делаю некоторые веб-соскабливания, и сайты часто используют объекты HTML для представления символов не ascii. У Python есть утилита, которая берет строку с объектами HTML и возвращает тип юникода?Преобразование XML/HTML-объектов в строку Unicode в Python
Например:
я вернусь:
ǎ
, которая представляет собой "ǎ" с отметкой тона. В двоичном формате это представлено как 16 бит 01ce. Я хочу, чтобы преобразовать HTML объект в значение u'\u01ce'
связанные с: [Decode HTML сущности в строке Python?] (Http://stackoverflow.com/q/2087370/4279) – jfs 2016-02-02 08:36:49