Я использую Scrapy shell без проблем с несколькими сайтами, но я нахожу проблемы, когда роботы (robots.txt) не разрешают доступ к сайту. Как отключить обнаружение роботов Scrapy (игнорируется существование)? Спасибо заранее. Я не говорю о проекте, созданного Scrapy, но команда Scrapy оболочки: scrapy shell 'www.example.com'
Как отключить robots.txt при запуске scrapy shell?
ответ
В файле settings.py вашего Scrapy проекта, искать ROBOTSTXT_OBEY и установить его на Ложный.
Я изменил файл settings.py, затем запустил команду, и у scrapy shell была цена с учетом изменения для всех остальных. Спасибо за ваше решение. –
Если вы используете scrapy из каталога проектов scrapy shell
, то будут использованы проекты settings.py
. Если вы запустите за пределами проекта, то в рамках этой программы будут использоваться настройки по умолчанию. Однако вы можете переопределить и добавить настройки с помощью флага --set
.
Так, чтобы отключить ROBOTSTXT_OBEY
настройки вы можете просто:
scrapy shell http://stackoverflow.com --set="ROBOTSTXT_OBEY=False"
Когда я запускаю эту команду, у меня есть ошибка: http://pastebin.com/fwVsU4BB –
Команда Scrapy shell проверяет текущие пауки, ища их 'allowed_domains', чтобы соответствовать этим атрибутам паука и пользовательским настройкам текущего сеанса оболочки. Может быть проблема с одним из этих пауков. – eLRuLL
можно разделить журналы вы получаете при выполнении команды оболочки? – eLRuLL
Журналы: http://pastebin.com/MASXrYb9 –
Журналы показывают, что вы определенно находитесь в проекте Scrapy, что означает, что доступен файл 'settings.py' – eLRuLL