Crawler (scrapy.crawler
) является основной точкой входа в Scrapy API. Он обеспечивает доступ ко всем основным компонентам Scrapy и используется для перехвата функций расширений в Scrapy.
Скребок (scrapy.core.scraper
) Компонент отвечает за разбор ответов и извлечение информации из них. Он запускается из Engine, и он используется для запуска ваших пауков.
scrapy.spiders
представляет собой модуль, содержащий базу Spider
реализации (что вы пишете ваши паук), вместе с некоторыми общими пауками доступен из коробки (как в CrawlSpider для набора правил на основе ползания, то SitemapSpider для карты сайта на основе ползания , или XMLFeedSpider для обхода XML-каналов).
Более подробная информация доступна на официальных страницах документации:
http://doc.scrapy.org/en/latest/topics/spiders.html?highlight=crawlspider#spiders http://doc.scrapy.org/en/latest/topics/api.html?highlight=scrapy.crawler#module-scrapy.crawler
«синтаксического анализа ответов и извлечения информации»: это то, что паук? –
Да, скребок отвечает за запуск пауков. – bosnjak