Я читаю в веб-страницы из интрасети черезLXML fromstring() дает HTML код с везде
webpage = urllib2.urlopen(urllib2.Request(self.URL))
doc = webpage.read()
root = html.fromstring(doc)
я заметил, что я ничего не могу с помощью FindAll() из этого корневого объекта читать, я затем заглянул в корневой объект с помощью:
code = etree.tostring(root)
которая давала мне точный HTML код, но с
всюду в кодексе. Я думаю, что это может вызвать проблемы с анализом (надеюсь, по крайней мере).
Как я могу получить чистый код HTML из этого? Требуется кодирование/декодирование?
Я попытался расшифровать его в UTF-8, но это не сработало.
print code.decode('utf-8')