2012-01-24 4 views
2

Я использую Beautiful Soup 3.2 на python 2.7.1 здесь.UnicodeEncodeError in Beautiful soup (python 2.7.1)

Недавно я пытался получить что-то просто работать, но это кажется довольно сложным:

я следующее:

temp=BeautifulSoup(urllib2.urlopen(urlList[1], None,15)) 

Однако я получаю ошибку:

File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__ 
BeautifulStoneSoup.__init__(self, *args, **kwargs) 
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in __init__ 
self._feed(isHTML=isHTML) 
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed 
SGMLParser.feed(self, markup) 
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed 
self.goahead(0) 
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead 
k = self.parse_endtag(i) 
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag 
self.finish_endtag(tag) 
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag 
method = getattr(self, 'end_' + tag) 
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfa' in 
position 4: ordinal not in range(128) 

Если я запускаю ту же петлю в другой раз, иногда я также получаю:

File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__ 
BeautifulStoneSoup.__init__(self, *args, **kwargs) 
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in 
__init__ 
self._feed(isHTML=isHTML) 
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed 
SGMLParser.feed(self, markup) 
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed 
self.goahead(0) 
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead 
k = self.parse_endtag(i) 
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag 
self.finish_endtag(tag) 
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag 
method = getattr(self, 'end_' + tag) 
UnicodeEncodeError: 'ascii' codec can't encode characters in position 
4-5: ordinal not in range(128) 

Как избежать этих ошибок? Очевидно, что что-то не так с sgmllib.py.

Я пробовал некоторые решения от SOF:

*] Пробовал soup = BeautifulSoup(page, fromEncoding=<encoding of the page>) Результат: работа, доцент той же ошибки.

*] Пробовал модернизировать мой sgmllib.py из версии 2.7.2 на мое 2.7.1-версию Результат: Дозированная работа, те же ошибки.

*] Прошлое html = BeautifulSoup(page.encode('utf-8')) Результат: Дозированная работа, те же ошибки.

Я был бы признателен за любые предложения относительно того, как решить эту ошибку кодирования.

+0

Похоже страницы, которую вы пытаетесь разобрать имеет difffernt кодирование, чем UTF-8. Что вы попробовали soup = BeautifulSoup (page, fromEncoding =) с? – Bogdan

+0

Привет, Богдан, я попробовал soup = BeautifulSoup (страница, fromEncoding = "utf-8") Однако я получаю те же ошибки. – JohnJ

+0

И вы уверены, что кодировка страницы, которую вы пытаетесь разобрать, - «utf-8»? – Bogdan

ответ

4

попробовать этот код в модуль

if __name__ == "__main__": 
    reload(sys) 
    sys.setdefaultencoding("utf-8") 
+0

Простите мое невежество, но «внутри вашего if name ==» main «:» - это тоже часть кода? если да, где я должен включать этот код? sys.setdefaultencoding не работает. sys.getdefaultencoding возвращает ascii. – JohnJ

+0

Обновлен код, чтобы показать правильный синтаксис, поскольку он был запутан форматированием. –

+1

Это абсолютный гений. Вышеприведенный код устраняет UnicodeEncodeError. Кажется, я не понимаю, как работает этот код. что делает «если __name__ ==» __main__ »:« делать? Не могли бы вы объяснить? – JohnJ

 Смежные вопросы

  • Нет связанных вопросов^_^