После того как я узнал кое-что о разных технологиях, я хотел создать небольшой проект с использованием UWP + NoSQL. Я хотел сделать небольшое приложение UWP, которое захватывает гороскоп и отображает его на моей малине Pi каждое утро.Извлечь содержимое веб-страницы, как браузер
Так что я взял WebClient
, и я следующее:
WebClient client = new WebClient();
client.Headers[HttpRequestHeader.UserAgent] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2";
string downloadString = client.DownloadString("http://www.horoscope.com/us/horoscopes/general/horoscope-general-daily-today.aspx?sign=2");
Но, кажется, что он обнаруживает, что этот запрос не приходит из браузера, так как интересная часть не в содержании (и когда я проверяю браузер, он находится в исходном HTML, по мнению скрипача).
Я также пробовал с ScrapySharp, но я получил тот же результат. Любая идея почему?
(я уже сделал часть UWP, так что я не хочу, чтобы изменить тему моего личного проекта только потому, что обнаруживается как «боты»)
EDIT
Кажется, я был недостаточно ясен. Вопрос ** не *, что я не могу разобрать HTML, проблема в том, что я не получаю ожидаемого HTML при использовании ScrapySharp/WebClient
EDIT2
Вот что я получить: http://pastebin.com/sXi4JJRG
И я не получаю (на примере) в «звезда рейтинги по домену» + соответствующие изображения для каждой звезды
Я попытался найти этот XML, но не смог. Не могли бы вы немного объяснить, где это? – ganchito55
@ ganchito55 Извините, я имел в виду исходный HTML, а не XML. Я просто сказал, что он не загружается в ajax-вызов. – J4N
Вы пробовали пакет гибкости HTML? –