2016-10-18 2 views
0

Я читаю в веб-страницы из интрасети черезLXML fromstring() дает HTML код с везде

 webpage = urllib2.urlopen(urllib2.Request(self.URL)) 
     doc = webpage.read() 
     root = html.fromstring(doc) 

я заметил, что я ничего не могу с помощью FindAll() из этого корневого объекта читать, я затем заглянул в корневой объект с помощью:

code = etree.tostring(root) 

которая давала мне точный HTML код, но с



всюду в кодексе. Я думаю, что это может вызвать проблемы с анализом (надеюсь, по крайней мере).

Как я могу получить чистый код HTML из этого? Требуется кодирование/декодирование?

Я попытался расшифровать его в UTF-8, но это не сработало.

print code.decode('utf-8') 

ответ

0

Ничего, это не проблема.

Проблема заключалась в том, что я скачал сайт и проанализирован его в автономном режиме, где он прокрался в

< TBODY>

теги, которые я использовал в своих запросах XPath. Это привело к тому, что мой скрипт не работал при загрузке веб-сайта через lxml.