ВНИМАНИЕ: Этот ответ был для Scrapy v0.7, с тех пор паук-менеджер сменился с изменением.
Override класс SpiderManager по умолчанию, загрузить свои собственные правила из базы данных или где-нибудь еще и создании экземпляра пользовательского паука с вашими собственными правилами/регулярных выражений и Доменное имя DOMAIN_NAME
в mybot/settings.py:
SPIDER_MANAGER_CLASS = 'mybot.spidermanager.MySpiderManager'
в mybot/spidermanager.py:
from mybot.spider import MyParametrizedSpider
class MySpiderManager(object):
loaded = True
def fromdomain(self, name):
start_urls, extra_domain_names, regexes = self._get_spider_info(name)
return MyParametrizedSpider(name, start_urls, extra_domain_names, regexes)
def close_spider(self, spider):
# Put here code you want to run before spiders is closed
pass
def _get_spider_info(self, name):
# query your backend (maybe a sqldb) using `name` as primary key,
# and return start_urls, extra_domains and regexes
...
return (start_urls, extra_domains, regexes)
и теперь ваш пользовательский класс паук, в mybot/spider.py:
from scrapy.spider import BaseSpider
class MyParametrizedSpider(BaseSpider):
def __init__(self, name, start_urls, extra_domain_names, regexes):
self.domain_name = name
self.start_urls = start_urls
self.extra_domain_names = extra_domain_names
self.regexes = regexes
def parse(self, response):
...
Примечания:
- Вы можете продлить CrawlSpider тоже, если вы хотите воспользоваться преимуществами своей системы правил
- Чтобы запустить использование паука:
./scrapy-ctl.py crawl <name>
, где name
передается в SpiderManager.fromdomain и является ключом к поиску дополнительной информации о пауках из бэкэнд-системы
- Поскольку решение переопределяет по умолчанию SpiderManager, кодирование классического паука (модуль python для SPIDER) не работает, но, я думаю, это не проблема для вас.Более подробную информацию о менеджере пауков по умолчанию TwistedPluginSpiderManager
@Christian Davén: Не были ответы приемлемы для вашего вопроса? – dangra