SCRAPY игнорировать мой settins.pyScrapy игнорировать settings.py
мой scraper.py
import scrapy
class BlogSpider(scrapy.Spider):
name = 'blogspider'
start_urls = ['https://www.doctolib.de/directory/a']
def parse(self, response):
if not response.xpath('//title'):
yield Request(url=response.url, dont_filter=True)
if not response.xpath('//lead'):
yield Request(url=response.url, dont_filter=True)
for title in response.css('.seo-directory-doctor-link'):
yield {'title': title.css('a ::attr(href)').extract_first()}
next_page = response.css('li.seo-directory-page > a[rel=next] ::attr(href)').extract_first()
if next_page:
yield scrapy.Request(response.urljoin(next_page), callback=self.parse)
В той же папке, что и скрипт помещается является settings.py с в нем
# Retry many times since proxies often fail
RETRY_TIMES = 5
# Retry on most error codes since proxies fail for different reasons
RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408]
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,
# Fix path to this module
'botcrawler.randomproxy.RandomProxy': 600,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}
PROXY_LIST = '/home/user/botcrawler/botcrawler/proxy/list.txt'
Почему он не загружает этот файл? Что я делаю неправильно?
Спасибо
ohh okay где пауки fodler расположен на Ubuntu? – Joni
Запустить название проекта запуска. Он создаст каталог по тому же пути. И вы найдете все в нем –