2016-10-14 2 views
1

Я написал следующий спайдер, но он не продолжает процесс сканирования после первоначального запроса, хотя у меня есть yield ed more scrapy.Request s для проведения скрипирования.scrapy yield Запрос не работает

import regex as re 
import scrapy 
from scrapy.linkextractors import LinkExtractor 
from scrapy.spiders import Spider 

class myspider(Spider): 
name = 'haha' 

allowed_domains = ['https://blog.scrapinghub.com/'] 
start_urls = ['https://blog.scrapinghub.com/'] 
extractor = LinkExtractor(allow=allowed_domains) 

def parse(self, response): 
    # To extract all the links on this page 
    links_in_page = self.extractor.extract_links(response) 

    for link in links_in_page: 
     yield scrapy.Request(link.url, callback=self.parse) 

ответ

1

allowed_domains должен быть a list of domains, а не список URL-адресов.

Так оно и должно быть:

allowed_domains = ['blog.scrapinghub.com']