Как отключить robots.txt при запуске scrapy shell?

Я использую Scrapy shell без проблем с несколькими сайтами, но я нахожу проблемы, когда роботы (robots.txt) не разрешают доступ к сайту. Как отключить обнаружение роботов Scrapy (игнорируется существование)? Спасибо заранее. Я не говорю о проекте, созданного Scrapy, но команда Scrapy оболочки: scrapy shell 'www.example.com'Как отключить robots.txt при запуске scrapy shell?

источник

2016-11-26 DARDAR SAAD

можно разделить журналы вы получаете при выполнении команды оболочки? – eLRuLL

Журналы: http://pastebin.com/MASXrYb9 –

Журналы показывают, что вы определенно находитесь в проекте Scrapy, что означает, что доступен файл 'settings.py' – eLRuLL

В файле settings.py вашего Scrapy проекта, искать ROBOTSTXT_OBEY и установить его на Ложный.

источник

2016-11-26 22:02:30 daniboy000

Я изменил файл settings.py, затем запустил команду, и у scrapy shell была цена с учетом изменения для всех остальных. Спасибо за ваше решение. –

Если вы используете scrapy из каталога проектов scrapy shell, то будут использованы проекты settings.py. Если вы запустите за пределами проекта, то в рамках этой программы будут использоваться настройки по умолчанию. Однако вы можете переопределить и добавить настройки с помощью флага --set.
Так, чтобы отключить ROBOTSTXT_OBEY настройки вы можете просто:

scrapy shell http://stackoverflow.com --set="ROBOTSTXT_OBEY=False"

источник

2016-11-26 23:28:12 Granitosaurus

Когда я запускаю эту команду, у меня есть ошибка: http://pastebin.com/fwVsU4BB –

Команда Scrapy shell проверяет текущие пауки, ища их 'allowed_domains', чтобы соответствовать этим атрибутам паука и пользовательским настройкам текущего сеанса оболочки. Может быть проблема с одним из этих пауков. – eLRuLL

Как отключить robots.txt при запуске scrapy shell?

ответ

Смежные вопросы