2014-11-06 2 views
0

Мне удалось получить исходный код DOM на внешнем веб-сайте, но он пришел с \ r \ n и большим количеством пробелов.Strip r n из переменной python

import urllib.request 

request = urllib.request.Request('http://example.com') 
response = urllib.request.urlopen(request) 
page = response.read() 
page = page.strip('\r\n') 
print (page) 

Я попробовал зачистить их, но не повезло. Как я могу получить только HTML?

А во-вторых, какова логика манипулирования возвращаемым DOM с javascript/jquery? Я надеялся, что сделать что-то вроде:

alert(document.getElementsByTagName('h1')[0].innerHTML); 

Который должен предупредить «Пример домена» с генерируемым DOM.

+0

«не повезло» не помогает. Что выводит 'print (page)' output? – Andy

+0

@ Andy 'TypeError: Тип str не поддерживает API-интерфейс буфера' –

+0

Не уверен, знаете ли вы об этом или нет, но' strip' удаляет символы только с начала или конца строки. Например, '' \ na \ nb \ n ".strip (" \ n ")' возвращает 'a \ nb''. – Kevin

ответ

2
'foo \r\n bar\r\n'.strip() 

удалит только '\r\n' в конце. Если у вас есть это во всем тексте, попробуйте цепочку .replace() следующим образом:

'foo \r\n bar\r\n'.replace('\r', '').replace('\n', '').replace(' ', '')