scrapy-redis re-crawl url, что одна машина уже ползала

Я написал распределенный паук, используя scrapy-redis.
Сначала все казалось прекрасным.scrapy-redis re-crawl url, что одна машина уже ползала

Файл настройки:

SCHEDULER = "scrapy_redis.scheduler.Scheduler" 
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

Однако, после обхода всех URL-адресов, один паук закрыт, а другой не сделал - и начал повторное сканирование URL-адреса, которые были уже пополз.

Может ли кто-нибудь помочь мне и объяснить, почему?

источник

2016-08-23 bidai

Bidal, мы можем помочь, если вы показали нам [MCVE]. – boardrider

Я решил проблему! Паук обычно не закрывается из-за неправильных настроек параметров, используя функцию «def close_spider (self, spider):».

источник

2016-12-23 03:03:45 bidai

scrapy-redis re-crawl url, что одна машина уже ползала

ответ

Смежные вопросы