Web выскабливание Oracle (ATG) Commerce

Я новичок в веб-выскабливание, и я использую следующий инструмент и способ лома:Web выскабливание Oracle (ATG) Commerce

Я использую R (с пакетами Curl, XML и т.д.) для чтения веб-страниц страницы (с ссылкой на url) и функцию htmlTreeParse для анализа страницы html.
Затем, чтобы узнать, какие данные я хочу, я сначала использую инструмент разработчика i Chrome для insepct кода.
Когда я знаю, в каком узле находятся данные, я использую xpathApply для их получения.

Обычно он хорошо работает. Но у меня была проблема с этим местом: http://www.sephora.fr/Parfum/Parfum-Femme/C309/2

При нажатии на эту ссылку, вы будете загружать страницу, а на самом деле это страница 1 (продукции).
Необходимо загрузить URL-адрес снова (путем ввода второго URL-адреса), чтобы получить страницу 2.
Когда я использую обычный процесс для чтения данных. Функция htmlTreeParse всегда дает мне страницу1.

Я пытался понять больше этот веб-сайт:

Кажется, что она построена с Oracle коммерции (ATG коммерции).
«Реальный» URL скрыт, а при нажатии на фильтре (например, вы выбираете марку), вы получите URL с RequestID: http://www.sephora.fr/Parfum/Parfum-Femme/C309?_requestid=285099

Это не поможет узнать, какие выбор сделанный.

Не могли бы вы помочь:

Как я могу получить доступ к большему количеству продуктов?

Спасибо

источник

2016-05-12 XR SC

Почему вы пытаетесь очистить этот сайт и у вас есть разрешение от Sephora на это? – bated

Я нашел решение: селен! Я думаю, что это идеальный инструмент для веб-соскабливания. Я опубликовал несколько вопросов, касающихся веб-соскабливания, теперь с rselenium, почти все возможно.

источник

2016-06-04 16:59:45

ответ

Смежные вопросы