2016-09-11 4 views
1

У меня есть Паук, но он не работает.
Мой паук очищал информацию только от некоторых ссылок. Here scraping all data, но Here nothing.
Я пробовал сломать другим способом, но результат все тот же.
Где моя ошибка? вот мой код до сих пор:Scrapy не сканирует все данные со страницы

UPDATE: для решения поставленной задачи DOWNLOAD_DELAY = 3

import scrapy 
from NotebookDB.items import NotebookDB 

class NotebookDBSpider(scrapy.Spider): 
    name = "notebookDB" 
    allowed_domains = ["price.ua"] 
    start_urls = [ 
     "http://price.ua/catc839t14.html", 
    ] 

    def parse(self, response): 

     sites = response.xpath('//*[@id="list-grid"]//div[@class="info-wrap"]/a/@href').extract() 
    for site in sites:    
     yield scrapy.Request(site, callback=self.parse_notebook, dont_filter=True) 



    def parse_notebook(sels, response): 
     item = NotebookDB() 
     item['url'] = response.url 
     item['brand'] = response.xpath('//div[@id="page-title"]/h1//span[@itemprop="brand"]/text()').extract() 
     item['title'] = response.xpath('//div[@id="page-title"]/h1/span[1]/span[2]/text()').extract()#response.xpath('//div[@id="page-title"]/h1//span[@itemprop="model"]/text()').extract() 
     item['image'] = response.xpath('//a[@id="model-big-photo"]//@href').extract() 
     item['price'] = str(response.xpath('//div[@class="price-diapazon"]/span/text()').extract_first()).replace("\u00a0","") 
     item['properties'] = response.xpath('//div[@class="relative-wrap"]/text()').extract()[2:-2] 

     yield item 

ответ

0

Вашего браузер двигатель вызывается питон скрипт отличается от браузера, вы открываете.

Вы, возможно, потребуется предоставить: 1) печенье 2) пройти тест робота (если вы не в Украине) 3) другие сведения (если они требуют от вас войти)

Вы можете попробуйте селен, и вы будете знать различия.

+1

Спасибо за ваш ответ. – AndMar