Я пытаюсь очистить веб-страницы в Ruby-скрипте, над которым я работаю. Цель проекта - показать, какие ETF и фондовые паевые фонды наиболее совместимы с философией инвестирования в ценности.Веб-страница соскабливания драгоценных камней/инструментов, доступных в Ruby
Некоторые примеры страниц, которые я хотел бы скрести являются:
http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
Какие веб соскоб инструменты вы рекомендуете для Ruby, и почему? Имейте в виду, что есть тысячи фондовых фондов, поэтому любой инструмент, который я использую, должен быть достаточно быстрым.
Я новичок в Ruby, но у меня есть опыт использования lxml для очистки веб-страниц в Python (https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py). Как только страницы на 5000 + запасах будут загружены, lxml может очистить их все всего за несколько минут. (Я помню, пытаясь BeautifulSoup но отвергая его, потому что он был слишком медленным.)
У Yahoo Finance фактически есть много доступных API, вы должны использовать один из них. – pguardiario