Я пытаюсь очистить данные от данных реестра от http://stats.nba.com/team/#!/1610612742/. До сих пор я пытался RCurl и XML-пакетов и код I'v пытался следующим образом:Скребковые данные от NBA.com
library(RCurl)
library(XML)
webpage <- getURL("http://stats.nba.com/team/#!/1610612742/")
webpage <- readLines(tc <- textConnection(webpage));
pagetree <- htmlTreeParse(webpage, useInternalNodes = TRUE)
x <- unlist(xpathApply(pagetree,"//*nba-stat-table_overflow/player",xmlValue))
Content <- gsub(pattern = "([\t\n])",
replacement = " ", x = x, ignore.case = TRUE)
Я считаю, что моя функция xpathApply отформатирован неправильно. Какой путь я должен дать ему, чтобы попасть в таблицу реестров?
Похоже, что данные загружаются с помощью JavaScript в некотором роде, а это значит, что вам нужно будет вытащить HTML с помощью чего-то вроде RSelenium, который может управлять браузером для фактического запуска необходимых скриптов. [Вот пример.] (Http://stackoverflow.com/a/41497119/4497050) Конечно, обязательно ознакомьтесь с Условиями; они достаточно щедры, но очень специфичны в отношении того, как вы можете использовать свою статистику. – alistaire
Прошу прощения, это просто для задания домашней работы на веб-скребке. –
Не требуется никаких извинений; это просто не самая простая страница, чтобы царапать. Википедия - это более простой сайт для занятий. – alistaire