2015-05-08 2 views
1

Мне комфортно соскабливать большинство сайтов с помощью Scrapy, однако я никогда не пробовал получать динамический контент из javascript, и я столкнулся с множеством аргументов в отношении того, как начать обучение.Python/Scrapy: Скремблирование данных Nasdaq?

Я пытаюсь скрести данные о доходах из таблицы по адресу:

http://www.nasdaq.com/symbol/scmp/revenue-eps

Я много слышал о Selenium и быть полезным (хотя многие утверждают, что медленно), и я также слышал о Всплеске с Scrapy, однако в документации ничего не говорится об установке в Windows, и я использую окна.

Просто надеемся на небольшое руководство относительно того, с чего начать, любые рекомендуемые учебные пособия и т. Д.

Примечание: Мне отчаянно нужен метод, который работает с Scrapy, потому что я больше всего знаком с Scrapy.

ответ

1

Чтобы использовать всплеск просто включите его промежуточный программный Scrapy в конфигурации:

DOWNLOADER_MIDDLEWARES = { 
    'splashtest.middleware.splash.SplashMiddleware': 725, 
} 

И сопрягать все URLs (если то, что вы хотите), чтобы пройти через Всплеск сервер:

SPLASH_URL_PASS = (r'.',) 

И запустите свой брызговый сервер с помощью:

python -msplash.server 

Следует сказать, что некоторые люди обеспокоены всплеском на qt, хотя.

 Смежные вопросы

  • Нет связанных вопросов^_^