2016-01-20 2 views
0

Я создал проект по скрипированию на питоне. Так что я создал два сценария:Выполнение скрипирования без создания проекта для скрининга

dmoz_spider.py и items.py:

$ cat dmoz_spider.py 
import scrapy 

class DmozSpider(scrapy.Spider): 
    name = "dmoz" 
    allowed_domains = ["dmoz.org"] 
    start_urls = [ 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
    ] 

    def parse(self, response): 
     filename = response.url.split("/")[-2] + '.html' 
     with open(filename, 'wb') as f: 
      f.write(response.body) 

$ cat items.py 
# -*- coding: utf-8 -*- 

# Define here the models for your scraped items 
# 
# See documentation in: 
# http://doc.scrapy.org/en/latest/topics/items.html 

import scrapy 


##class TutorialItem(scrapy.Item): 
    # define the fields for your item here like: 
    # name = scrapy.Field() 
## pass 

class DmozItem(scrapy.Item): 
    title = scrapy.Field() 
    link = scrapy.Field() 
    desc = scrapy.Field() 

То, что я действительно хочу знать, как я могу изменить свой код, чтобы иметь возможность запускать его с помощью следующего кода:

$ python dmoz_spider.py 

И получить мои результаты ...

Как я должен изменить свой код?

+0

использовать паук 'name' не его имя файла – eLRuLL

+0

Tahnk вы, как я могу изменить код? – MLSC

+0

'scrapy crawl dmoz', я предлагаю полностью прочитать учебник. – eLRuLL

ответ