2016-05-12 3 views
0

Я новичок в веб-выскабливание, и я использую следующий инструмент и способ лома:Web выскабливание Oracle (ATG) Commerce

  • Я использую R (с пакетами Curl, XML и т.д.) для чтения веб-страниц страницы (с ссылкой на url) и функцию htmlTreeParse для анализа страницы html.
  • Затем, чтобы узнать, какие данные я хочу, я сначала использую инструмент разработчика i Chrome для insepct кода.
  • Когда я знаю, в каком узле находятся данные, я использую xpathApply для их получения.

Обычно он хорошо работает. Но у меня была проблема с этим местом: http://www.sephora.fr/Parfum/Parfum-Femme/C309/2

  • При нажатии на эту ссылку, вы будете загружать страницу, а на самом деле это страница 1 (продукции).
  • Необходимо загрузить URL-адрес снова (путем ввода второго URL-адреса), чтобы получить страницу 2.
  • Когда я использую обычный процесс для чтения данных. Функция htmlTreeParse всегда дает мне страницу1.

Я пытался понять больше этот веб-сайт:

  • Кажется, что она построена с Oracle коммерции (ATG коммерции).
  • «Реальный» URL скрыт, а при нажатии на фильтре (например, вы выбираете марку), вы получите URL с RequestID: http://www.sephora.fr/Parfum/Parfum-Femme/C309?_requestid=285099

Это не поможет узнать, какие выбор сделанный.

Не могли бы вы помочь:

  • Как я могу получить доступ к большему количеству продуктов?

Спасибо

+0

Почему вы пытаетесь очистить этот сайт и у вас есть разрешение от Sephora на это? – bated

ответ

0

Я нашел решение: селен! Я думаю, что это идеальный инструмент для веб-соскабливания. Я опубликовал несколько вопросов, касающихся веб-соскабливания, теперь с rselenium, почти все возможно.

 Смежные вопросы

  • Нет связанных вопросов^_^