Я пытаюсь создать корпус статей из LexisNexis с пакетом tm
. Статьи были экспортированы из LexisNexis в .html и разбираются в R с tm.plugin.lexisnexis
-package как так:R: Подзаголовок за пределами при использовании функции tm Corpus на LexisNexis-данных
> library("tm")
> library("tm.plugin.lexisnexis")
> src <- LexisNexisSource("~/Desktop/lexisnexis.html")
Следуя инструкциям в tm.plugin.lexisnexis
-documentation, я затем создать корпус, используя tm
-package , так:
> data <- Corpus(src, readerControl = list(language = NA))
Error in getNodeSet(tree, "//div[@class = 'c3']/p[@class = 'c1']/span[@class = 'c4']")[[1]] :
subscript out of bounds
Что означает эта ошибка и как ее исправить?
Пример HTML-данные: link
Хмм, я не уверен, что понимаю. Я что-то пропустил в моем .html-файле или не является 'src'-объектом неполным? – ageil
Не уверен, что там происходит. Пожалуйста, найдите общее решение вышеуказанной ошибки здесь http://stackoverflow.com/questions/15031338/subscript-out-of-bounds-general-definition-and-solution –