2013-02-23 3 views
10

Я пытаюсь очистить веб-страницы в Ruby-скрипте, над которым я работаю. Цель проекта - показать, какие ETF и фондовые паевые фонды наиболее совместимы с философией инвестирования в ценности.Веб-страница соскабливания драгоценных камней/инструментов, доступных в Ruby

Некоторые примеры страниц, которые я хотел бы скрести являются:

http://finance.yahoo.com/q/pr?s=SPY+Profile 
http://finance.yahoo.com/q/hl?s=SPY+Holdings 
http://www.marketwatch.com/tools/mutual-fund/list/V 

Какие веб соскоб инструменты вы рекомендуете для Ruby, и почему? Имейте в виду, что есть тысячи фондовых фондов, поэтому любой инструмент, который я использую, должен быть достаточно быстрым.

Я новичок в Ruby, но у меня есть опыт использования lxml для очистки веб-страниц в Python (https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py). Как только страницы на 5000 + запасах будут загружены, lxml может очистить их все всего за несколько минут. (Я помню, пытаясь BeautifulSoup но отвергая его, потому что он был слишком медленным.)

+1

У Yahoo Finance фактически есть много доступных API, вы должны использовать один из них. – pguardiario

ответ

22

Есть так много scraping gems доступны в Ruby как Hpricot, Nokogiri и так много. Я рекомендую Nokogiri очистить static web pages. Если вы очищаете dynamic web pages (означает, что это включает нажатие кнопки, отправьте форму и т. Д.). Я рекомендую Mechanize, который внутренне использует Nokogiri.

+0

У Hpricot больше нет сопровождающего. Я бы рекомендовал использовать Nokogiri :) – Jake88

 Смежные вопросы

  • Нет связанных вопросов^_^