Я новичок в веб-выскабливание, и я использую следующий инструмент и способ лома:Web выскабливание Oracle (ATG) Commerce
- Я использую R (с пакетами Curl, XML и т.д.) для чтения веб-страниц страницы (с ссылкой на url) и функцию htmlTreeParse для анализа страницы html.
- Затем, чтобы узнать, какие данные я хочу, я сначала использую инструмент разработчика i Chrome для insepct кода.
- Когда я знаю, в каком узле находятся данные, я использую xpathApply для их получения.
Обычно он хорошо работает. Но у меня была проблема с этим местом: http://www.sephora.fr/Parfum/Parfum-Femme/C309/2
- При нажатии на эту ссылку, вы будете загружать страницу, а на самом деле это страница 1 (продукции).
- Необходимо загрузить URL-адрес снова (путем ввода второго URL-адреса), чтобы получить страницу 2.
- Когда я использую обычный процесс для чтения данных. Функция htmlTreeParse всегда дает мне страницу1.
Я пытался понять больше этот веб-сайт:
- Кажется, что она построена с Oracle коммерции (ATG коммерции).
- «Реальный» URL скрыт, а при нажатии на фильтре (например, вы выбираете марку), вы получите URL с RequestID: http://www.sephora.fr/Parfum/Parfum-Femme/C309?_requestid=285099
Это не поможет узнать, какие выбор сделанный.
Не могли бы вы помочь:
- Как я могу получить доступ к большему количеству продуктов?
Спасибо
Почему вы пытаетесь очистить этот сайт и у вас есть разрешение от Sephora на это? – bated