2015-06-24 2 views
1

В круизной индустрии есть несколько сайтов, которые я бы хотел соскрести. Примеры: http://www.silversea.com/cruise/cruise-results/?page_num=1 http://www.seabourn.com/find-luxury-cruise-vacation/FindCruises.action?cfVer=2&destCode=&durationCode=&dateCode=&shipCodeSearch=&portCode=Лучший подход к царапинам с разбивкой по страницам с использованием import.io

В некоторых случаях, как и первый, показанный на странице результатов следует за Паттен - PAGE_NUM = 1 ... 17?. Однако количество результатов будет меняться со временем.

Во втором случае URL-адрес не изменяется с разбивкой по страницам.

В конце дня то, что я хотел бы сделать, - это получить результаты для каждого веб-сайта в один файл.

Q1: Есть ли альтернатива установке 17 скреперов для сценария 1, а затем активно наблюдать, как результаты растут/сжимаются с течением времени?

Q2: Я полностью зациклен на том, как очистить контент от второго сценария.

ответ

1

Q1- Бесплатный инструмент из (import.io) не имеет возможности активно наблюдать за изменением данных с течением времени. Что вы можете сделать, так это то, что Data Bulk Extracted Extractor (с 17 страницами будет очень быстро) и добавлен в базу данных. После каждой записи в базу данных записи могут быть обнулены или отмечены как уникальные. Вы можете сделать это вручную в Excel или программно.

Их предприятие (данные как услуга) может сделать это за вас.

Q2- Если для каждой страницы нет уникального URL-адреса, единственным инструментом, который будет разбивать страницы на страницы, является Коннектор.

1

Я бы рекомендовал вам построить экстрактор, чтобы получить разбивку на страницы. Результатом этого экстрактора будет список ссылок, каждая ссылка соответствует странице.

Таким образом, при каждом запуске приложения и изменении количества страниц вы всегда будете получать все страницы.

После этого сделайте звонок для каждой страницы, чтобы получить нужные данные.

экстрактор 1: Получить страницы - Входной сигнал: Первый URL-

экстрактор 2: получить элементы (данные) - Входной сигнал: Результат от экстрактор 1