2017-02-11 4 views
-1

SCRAPY игнорировать мой settins.pyScrapy игнорировать settings.py

мой scraper.py

import scrapy 
 

 

 

 
class BlogSpider(scrapy.Spider): 
 
    name = 'blogspider' 
 
    start_urls = ['https://www.doctolib.de/directory/a'] 
 

 
    def parse(self, response): 
 

 
     if not response.xpath('//title'): 
 
      yield Request(url=response.url, dont_filter=True) 
 

 
     if not response.xpath('//lead'): 
 
      yield Request(url=response.url, dont_filter=True) 
 

 
     for title in response.css('.seo-directory-doctor-link'): 
 
      yield {'title': title.css('a ::attr(href)').extract_first()} 
 

 
     next_page = response.css('li.seo-directory-page > a[rel=next] ::attr(href)').extract_first() 
 
     if next_page: 
 
      yield scrapy.Request(response.urljoin(next_page), callback=self.parse)

В той же папке, что и скрипт помещается является settings.py с в нем

# Retry many times since proxies often fail 
 
RETRY_TIMES = 5 
 
# Retry on most error codes since proxies fail for different reasons 
 
RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408] 
 

 
DOWNLOADER_MIDDLEWARES = { 
 
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90, 
 
    # Fix path to this module 
 
    'botcrawler.randomproxy.RandomProxy': 600, 
 
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110, 
 
} 
 

 
PROXY_LIST = '/home/user/botcrawler/botcrawler/proxy/list.txt'

Почему он не загружает этот файл? Что я делаю неправильно?

Спасибо

ответ

0

settings.py файл должен быть параллельно папки пауков и ваш scraper.py должны быть в папке пауков. Вы можете переопределить существующий файл settings.py.

+0

ohh okay где пауки fodler расположен на Ubuntu? – Joni

+0

Запустить название проекта запуска. Он создаст каталог по тому же пути. И вы найдете все в нем –

0

Судя по вашим недавним сообщениям, похоже, что вы пытаетесь начать проект по очистке. Было бы неплохо, чтобы прочитать Scrapy Учебник here

В заключение, он расскажет, как начать проект Scrapy с помощью команды scrapy startproject Blogspider

Это настроит 3 связаны папки: Blogspider >> Blogspider >> Пауки

Во второй папке будут файлы items.py и settings.py и еще несколько файлов. Вам действительно нужно отредактировать файл items.py.

В папке «Пауки» вы помещаете своего паука, и он будет читать файлы items.py и settings.py и т. Д. Из предыдущей папки.