моего канала ontains:® преобразуется в A® в Python при разборе XML
<title><![ CDATA[HBO Wins 19 Emmy® Awards, The Most of Any Network This Year]]></title>
Теперь я разбор RSS, а затем назначить заголовок заголовок, как показано ниже:
for item in XML.ElementFromURL(feed).xpath('//item',namespaces=NEWS_NS):
title = item.find('title').text
Log("Title :"+title)
и когда Я проверяю выход или файл журнала, после чего я вижу заголовок, как показано ниже:
HBO выигрывает 19 премий за Emmy®, большую часть любой сети в этом году.
® преобразуется в ®. Все, что я пробовал использовать парсер HTML, но не использовать.
Определите, что означает ®. Какая кодировка является фидом? Какую кодировку вы печатаете? Почему вы не используете чудесный http://www.feedparser.org/? Также обратите внимание, что в вашем вызове 'Log()' вы бросаете заголовок на 'str', даже если объект был правильным экземпляром' unicode'. – patrys
@patrys, The feed, encoding = "iso-8859-1". feedparser.org - внешняя библиотека? В этом случае я не могу использовать это. И Можете ли вы прояснить «Какую кодировку вы печатаете?» – Simsons
Кажется, вы получаете правильное представление utf-8 символа «®», но печатаете его на выходе «latin1» ('iso-8859-1'). Я подозреваю, что проблема заключается не в том, как вы декодируете фид, а скорее в том, как вы «Log()» результаты или просматриваете зарегистрированные результаты. – patrys