2013-08-14 8 views
0

Я задаю новый вопрос, потому что я знаю, что я был недостаточно ясен в последнем. Я пытаюсь следовать учебному курсу, но я застрял в решающем шаге, «scraw crawl dmoz». Код этот (я написал это в оболочке python и сохранил его .py. расширение):scrapy tutorial: не может запускать scrapy crawl dmoz

ActivePython 2.7.2.5 (ActiveState Software Inc.) based on 
Python 2.7.2 (default, Jun 24 2011, 12:20:15) 
[GCC 4.2.1 (Apple Inc. build 5664)] on darwin 
Type "copyright", "credits" or "license()" for more information. 
>>> from scrapy.spider import BaseSpider 

class dmoz(BaseSpider): 
    name = "dmoz" 
    allowed_domains = ["dmoz.org"] 
    start_urls = [ 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
     "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
    ] 

    def parse(self, response): 
     filename = response.url.split("/")[-2] 
     open(filename, 'wb').write(response.body) 

>>> 

каталог Я использую должно быть хорошо, пожалуйста, найти ниже дерева:

. 
├── scrapy.cfg 
└── tutorial 
    ├── __init__.py 
    ├── __init__.pyc 
    ├── items.py 
    ├── pipelines.py 
    ├── settings.py 
    ├── settings.pyc 
    └── spiders 
     ├── __init__.py 
     ├── __init__.pyc 
     └── dmoz_spider.py 

2 directories, 10 files 

Теперь, когда я пытаюсь запустить «scapy ползать DMOZ» Я получаю это:

$ scrapy crawl dmoz 

2013-08-14 12:51:40+0200 [scrapy] INFO: Scrapy 0.16.5 started (bot: tutorial) 
2013-08-14 12:51:40+0200 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState 
Traceback (most recent call last): 
    File "/Library/Frameworks/Python.framework/Versions/2.7/bin/scrapy", line 5, in <module> 
    pkg_resources.run_script('Scrapy==0.16.5', 'scrapy') 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pkg_resources.py", line 499, in run_script 
    self.require(requires)[0].run_script(script_name, ns) 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pkg_resources.py", line 1235, in run_script 
    execfile(script_filename, namespace, namespace) 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/EGG-INFO/scripts/scrapy", line 4, in <module> 
    execute() 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/cmdline.py", line 131, in execute 
    _run_print_help(parser, _run_command, cmd, args, opts) 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/cmdline.py", line 76, in _run_print_help 
    func(*a, **kw) 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/cmdline.py", line 138, in _run_command 
    cmd.run(args, opts) 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/commands/crawl.py", line 43, in run 
    spider = self.crawler.spiders.create(spname, **opts.spargs) 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/command.py", line 33, in crawler 
    self._crawler.configure() 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/crawler.py", line 40, in configure 
    self.spiders = spman_cls.from_crawler(self) 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/spidermanager.py", line 35, in from_crawler 
    sm = cls.from_settings(crawler.settings) 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/spidermanager.py", line 31, in from_settings 
    return cls(settings.getlist('SPIDER_MODULES')) 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/spidermanager.py", line 22, in __init__ 
    for module in walk_modules(name): 
    File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/Scrapy-0.16.5-py2.7.egg/scrapy/utils/misc.py", line 65, in walk_modules 
    submod = __import__(fullpath, {}, {}, ['']) 
    File "/Users//Documents/tutorial/tutorial/spiders/dmoz_spider.py", line 1 
    ActivePython 2.7.2.5 (ActiveState Software Inc.) based on 
       ^
SyntaxError: invalid syntax 

Кто-нибудь знает, что не так с шагами, которые я делаю? Благодарим вас за помощь. Это мой самый первый опыт в программировании, поэтому это может быть очень глупая проблема.

ответ

0

Отступ недействителен. Оно должно быть:

>>>from scrapy.spider import BaseSpider 

>>>class dmoz(BaseSpider): 
     name = "dmoz" 
     allowed_domains = ["dmoz.org"] 
     start_urls = [ 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
     ] 

     def parse(self, response): 
      filename = response.url.split("/")[-2] 
      open(filename, 'wb').write(response.body) 

Я думаю, что вы копию вставили код в IDLE, пожалуйста отступа класса.

+0

На самом деле я это сделал, но я все еще получаю ошибку «Недопустимый синтаксис» ... что еще может быть? – user2668703

+0

Вы использовали 4 пробела для отступа? Какой инструмент вы используете для выполнения этого скрипта? Пожалуйста, вставьте код в ideone.com и поделитесь им. Это поможет. – user1787687

+0

Это была еще одна опечатка, большое спасибо за помощь и предложение ideone.com. – user2668703

1

Это не проблема отступов, сообщение об ошибке ясно:

File "/Users//Documents/tutorial/tutorial/spiders/dmoz_spider.py", line 1 
ActivePython 2.7.2.5 (ActiveState Software Inc.) based on 
      ^
SyntaxError: invalid syntax 

Вы явно есть копия вставить код в IDLE в том числе, начиная строки из IDLE, которые не являются никаким кодом.

Вместо копирования вставить, попробуйте открыть редактор и на самом деле ввести код учебника там, вы узнаете лучше, и вы не будете случайно вставлять дерьмо.