2016-08-23 7 views
0

Я написал распределенный паук, используя scrapy-redis.
Сначала все казалось прекрасным.scrapy-redis re-crawl url, что одна машина уже ползала

Файл настройки:

SCHEDULER = "scrapy_redis.scheduler.Scheduler" 
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue' 

Однако, после обхода всех URL-адресов, один паук закрыт, а другой не сделал - и начал повторное сканирование URL-адреса, которые были уже пополз.

Может ли кто-нибудь помочь мне и объяснить, почему?

+0

Bidal, мы можем помочь, если вы показали нам [MCVE]. – boardrider

ответ

0

Я решил проблему! Паук обычно не закрывается из-за неправильных настроек параметров, используя функцию «def close_spider (self, spider):».