Я хочу сделать некоторые веб-скребки с GAE. (Бесконечный информационный портал студенческого городка, fyi). Эта услуга требует, чтобы вы заходили на сайт. У меня был код, который работал с использованием механизации в обычном питоне. Когда я узнал, что не могу использовать механизацию в Google App Engine, я закончил использование urllib2 + ClientForm. Я не мог заставить его войти на сервер, поэтому после нескольких часов работы с обработкой файлов cookie я запускал тот же самый код в обычном интерпретаторе python, и он работал. Я нашел файл журнала и увидел массу сообщений об удалении заголовка «хозяина» в моем запросе ... Я нашел исходный файл в Google Code, а заголовок хоста был в «ненадежном» списке и удален из всех запросов код пользователя.Скребок веб-экрана с Google App Engine - код работает в интерпретаторе python, но не в GAE
Очевидно, что GAE вырезает заголовок хоста, который требуется I.C. чтобы определить, в какую школьную систему вы входите в систему, поэтому она появилась, как будто я не мог войти в систему.
Как мне решить эту проблему? Я не могу указать что-либо еще в моем подделке на целевой сайт. Почему это должно быть «дырой в безопасности» в первую очередь?
http://webappecho.appspot.com/ является хорошим испытанием для этого. –
хороший указатель, спасибо Ник! –
Спасибо! Я попробую! –