Мне удалось получить исходный код DOM на внешнем веб-сайте, но он пришел с \ r \ n и большим количеством пробелов.Strip r n из переменной python
import urllib.request
request = urllib.request.Request('http://example.com')
response = urllib.request.urlopen(request)
page = response.read()
page = page.strip('\r\n')
print (page)
Я попробовал зачистить их, но не повезло. Как я могу получить только HTML?
А во-вторых, какова логика манипулирования возвращаемым DOM с javascript/jquery? Я надеялся, что сделать что-то вроде:
alert(document.getElementsByTagName('h1')[0].innerHTML);
Который должен предупредить «Пример домена» с генерируемым DOM.
«не повезло» не помогает. Что выводит 'print (page)' output? – Andy
@ Andy 'TypeError: Тип str не поддерживает API-интерфейс буфера' –
Не уверен, знаете ли вы об этом или нет, но' strip' удаляет символы только с начала или конца строки. Например, '' \ na \ nb \ n ".strip (" \ n ")' возвращает 'a \ nb''. – Kevin