В круизной индустрии есть несколько сайтов, которые я бы хотел соскрести. Примеры: http://www.silversea.com/cruise/cruise-results/?page_num=1 http://www.seabourn.com/find-luxury-cruise-vacation/FindCruises.action?cfVer=2&destCode=&durationCode=&dateCode=&shipCodeSearch=&portCode=Лучший подход к царапинам с разбивкой по страницам с использованием import.io
В некоторых случаях, как и первый, показанный на странице результатов следует за Паттен - PAGE_NUM = 1 ... 17?. Однако количество результатов будет меняться со временем.
Во втором случае URL-адрес не изменяется с разбивкой по страницам.
В конце дня то, что я хотел бы сделать, - это получить результаты для каждого веб-сайта в один файл.
Q1: Есть ли альтернатива установке 17 скреперов для сценария 1, а затем активно наблюдать, как результаты растут/сжимаются с течением времени?
Q2: Я полностью зациклен на том, как очистить контент от второго сценария.