2015-09-08 1 views
0

Я пытаюсь скрести sainsburys.co.uk, я бегу следующий код в RWeb соскоб с ошибкой R

doc <- htmlTreeParse('http://www.sainsburys.co.uk/shop/gb/groceries/fruit-veg/all-fruit#langId=44&storeId=10151&catalogId=10122&categoryId=12545&parent_category_rn=12518&top_category=12518&pageSize=30&orderBy=FAVOURITES_FIRST&searchTerm') 

rootNode <- xmlRoot(doc) 

, но у меня есть эта ошибка:

Error in x$children[[1]] : subscript out of bounds 

Что я делать не так?

ответ

1

Вы можете попробовать httr библиотеку:

library(XML) 
library(httr) 
url <- 'http://www.sainsburys.co.uk/shop/gb/groceries/fruit-veg/all-fruit#langId=44&storeId=10151&catalogId=10122&categoryId=12545&parent_category_rn=12518&top_category=12518&pageSize=30&orderBy=FAVOURITES_FIRST&searchTerm' 
doc <- content(GET(url),type="text/html") 
xmlValue(doc["//title"][[1]]) 
# [1] "All fruit | Sainsbury's" 
+0

Он работает, спасибо! – Jeisson