Я столкнулся с несколькими сайтами, которые, когда я пытался извлечь код, возвращают метатаг ROBOTS и продолжают это делать даже при попытке использовать Mechanize. В качестве примера:Механизируйте возвращение robot.txt, несмотря на то, что он установлен для игнорирования
import mechanize
br = mechanize.Browser()
br.set_handle_robots(False)
br.open("http://myanimelist.net/anime.php?letter=B")
response = br.response().read()
Я попытался установить заголовки и настройки других рукояток, но никогда не получить ответ, разве на метатега Robots.
Любая помощь была бы принята с благодарностью, спасибо.
Edit:
Попытка предлагаемые заголовки ниже:
import mechanize
url = "http://myanimelist.net/anime.php?letter=B"
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders=[('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'),
('Host', 'myanimelist.net'),
('Accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'),
('Accept-Encoding', 'gzip, deflate, sdch'),
('Accept-Language', 'en-US,en;q=0.8,ru;q=0.6'),
('Cache-Control', 'max-age=0'),
('Connection', 'keep-alive')]
br.open(url)
response = br.response().read()
print response
Я все еще получаю ту же Robots метатега. Я добавляю заголовки неправильно, или я просто застрял в CAPTCHA?
Благодарим за помощь, я ценю это.