2017-02-07 7 views
0

Я пытаюсь очистить данные от ADM finance. Я использую rvest библиотеку R, чтобы вытащить данные. Ниже приводится код, я бегуWeb scrape данные с сайта финансов с использованием R (rvest)

library(rvest) 
url ="https://www.e-adm.com/futr/futr_composite_window.asp" 
table1 = html(url) %>% html_nodes(".miniText tr:nth-child(1) td:nth-child(1) .smTextBlk") %>% html_nodes("table") %>%html_table 
table2 = html(url) %>% html_nodes(".miniText tr:nth-child(1) td:nth-child(2) .smTextBlk") %>% html_nodes("table") %>%html_table 

и получить следующее предупреждение без данных

Warning message: 
'html' is deprecated. 
Use 'read_html' instead. 
See help("Deprecated") 

Моя цель состоит, чтобы вытащить все таблицы с этого сайта. Было бы большой помощью, если бы кто-нибудь мог мне помочь с кодом. Заранее спасибо!

ответ

0
library(rvest) 
url ="https://www.e-adm.com/futr/futr_composite_window.asp" 

tableList <- read_html(url) %>% 
    html_nodes(".miniText") %>% 
    html_nodes("td table") %>% 
    html_table() 

Это создает список из 9 таблиц на связанном веб-сайте.

+0

Благодарим за отзыв. Это работает. Было бы здорово, если бы вы могли объяснить, почему вы использовали функцию 'html_nodes()' дважды? – honey

+0

В основном для аккуратности он может быть свернут в 'html_nodes (". MiniText td table ")' – GGamba