2017-01-28 4 views
2

Я пытаюсь найти всю информацию, находящуюся внутри «проверки» при использовании браузера, например, chrome, в настоящее время я могу получить страницу «источник», но в ней нет всего, что проверяет содержитПолучение информации в элементе проверки

, когда я попытался с помощью

with urllib.request.urlopen(section_url) as url: 
    html = url.read() 

я получил следующее сообщение об ошибке: «urllib.error.HTTPError: Ошибка HTTP 403: Forbidden»

Теперь я предполагаю, что это потому, что URL-я пытаясь получить это с https url вместо http один, и мне было интересно если есть определенный способ получить эту информацию из https, так как обычные методы не работают.

Примечание: Я также попытался это, но он не показал мне все

f = requests.get(url) 
print(f.text) 
+0

«Осмотреть» просто показывает вам, где в источнике определенная вещь. Чтобы реализовать свои собственные, вам нужно создать графический интерфейс (собственный браузер). – Frogboxe

+0

Кроме того, 403 означает, что сайт отказался отправить данные назад. возможно, у вас нет прав доступа. – Frogboxe

ответ

1

Вы должны иметь агент пользователя, чтобы сделать браузер думает, что вы не робот.

import urllib.request, urllib.error, urllib.parse 

url = 'http://www.google.com' #Input your url 
user_agent = 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.63 Safari/534.3' 
headers = { 'User-Agent' : user_agent } 
req = urllib.request.Request(url, None, headers) 
response = urllib.request.urlopen(req) 
html = response.read() 
response.close() 

адаптировано из https://stackoverflow.com/a/3949760/6622817