Я написал распределенный паук, используя scrapy-redis.
Сначала все казалось прекрасным.scrapy-redis re-crawl url, что одна машина уже ползала
Файл настройки:
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
Однако, после обхода всех URL-адресов, один паук закрыт, а другой не сделал - и начал повторное сканирование URL-адреса, которые были уже пополз.
Может ли кто-нибудь помочь мне и объяснить, почему?
Bidal, мы можем помочь, если вы показали нам [MCVE]. – boardrider