2016-01-06 2 views
0

Я пытаюсь создать корпус статей из LexisNexis с пакетом tm. Статьи были экспортированы из LexisNexis в .html и разбираются в R с tm.plugin.lexisnexis -package как так:R: Подзаголовок за пределами при использовании функции tm Corpus на LexisNexis-данных

> library("tm") 
> library("tm.plugin.lexisnexis") 
> src <- LexisNexisSource("~/Desktop/lexisnexis.html") 

Следуя инструкциям в tm.plugin.lexisnexis -documentation, я затем создать корпус, используя tm -package , так:

> data <- Corpus(src, readerControl = list(language = NA)) 
Error in getNodeSet(tree, "//div[@class = 'c3']/p[@class = 'c1']/span[@class = 'c4']")[[1]] : 
    subscript out of bounds 

Что означает эта ошибка и как ее исправить?

Пример HTML-данные: link

+0

Хмм, я не уверен, что понимаю. Я что-то пропустил в моем .html-файле или не является 'src'-объектом неполным? – ageil

+0

Не уверен, что там происходит. Пожалуйста, найдите общее решение вышеуказанной ошибки здесь http://stackoverflow.com/questions/15031338/subscript-out-of-bounds-general-definition-and-solution –

ответ

1

Я автор пакета. В настоящее время он не работает, поскольку формат, используемый LexisNexis, недокументирован. Я постараюсь это исправить, но если кто-нибудь предложит патч, это произойдет раньше. :-)