1
Существует сайт, который счастливо открывается в браузере и возвращает ошибку 403 HTTP при открытии в Python следующим образом:сайт открывается в браузере, но вернуться 403 при открытии в Python
from bs4 import BeautifulSoup
import urllib2
link = 'http://niezalezna.pl/'
r = urllib2.urlopen(link).read()
soup = BeautifulSoup(r, 'lxml')
print soup.prettify()
Сайт является популярным служба новостей. Можно ли затем вернуть URL-адрес HTTP 403 при открытии с помощью фрагмента кода, как указано выше? Спасибо,
Это означает, что сайт не позволяет скребки. подделать пользовательский агент, чтобы пройти мимо этого. – n1c9
Что именно вы имеете в виду? – tsotsi
Посмотрите, как установить пользовательский агент с помощью urllib2 – n1c9