Я пытаюсь сделать мой scrapy spider отрицающим .com домены. Какая правильная строка передается deny_domains? Я пробовал «* .com», но он не работает.Как сделать Scrapy spider для отказа в доменах домена
Вопрос ОБНОВЛЕНИЕ: Как я могу сделать наоборот? Например, если я только хочу, чтобы скоблить .com домены
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from myproject.items import MyprojectItem
class pformSpider(CrawlSpider):
name = "pform6"
start_urls = [
"http://example.se",
]
extractor = SgmlLinkExtractor(deny_domains=("*.com"))
rules = (
Rule(extractor,callback='parse_links',follow=True),
)
def parse_links(self, response):
item = MyprojectItem()
item['url'] = response.url
yield item
Знаете ли вы, что '* .' делает в регулярном выражении? –