2015-12-08 3 views
2

Я бы использовал квантовую систему Ben-Rate для анализа статей, экспортированных из lexisnexis. Экспорт находится в стандартном html-формате. Я использую плагин tm package + для чтения вывода lexisnexis. К сожалению, возникает ошибка при преобразовании tm-corpus в quanteda-corpus. Разве эта функция сломана, или есть что-то, что я ошибаюсь раньше?Импорт данных lexisnexis в R quanteda

library("tm") 
library("tm.plugin.lexisnexis") 
library("quanteda") 

ln <- LexisNexisSource("lexisnexisOutput.html") 
cr <- Corpus(ln) 
crp <- corpus(cr) 

Error in UseMethod("corpus") : 
    no applicable method for 'corpus' applied to an object of class "list" 
In addition: Warning message: 
In corpus(texts, docvars = metad, source = paste("Converted from tm VCorpus '", : 
    Arguments docvarssource not used. 
+0

Непонятно, откуда происходит ваш «файл», но вместо него заменяется тестовым файлом из самого пакета ('file <- system.file (« тексты »,« lexisnexis_test_en.html », package =« tm.plugin » .lexisnexis "); ln <- LexisNexisSource (файл)') также, похоже, вызывает ту же ошибку. Похоже, что что-то вышло из синхронизации с разными версиями. Можете ли вы уточнить, какие версии пакетов вы используете ('sessionInfo()' должен сказать вам)? – MrFlick

+0

Спасибо за быстрый ответ. Пакеты должны быть актуальными. quanteda_0.9.0-1 tm.plugin.lexisnexis_1.2 tm_0.6-2 Я не уверен, что именно вы подразумеваете под тем, откуда происходит этот файл? Его формат является образцом как пример файла lexisnexis_test_en.html – bstn

+0

Я предлагаю подать вопрос на https://github.com/kbenoit/quanteda/issues, и мы это исправим. Помогло бы, если бы вы отправили мне по электронной почте файл 'lexisnexisOutput.html'. –

ответ

0

Это ограничение corpus.VCorpus() когда тексты были вектор типов гольцов, а не только один тип голец. Исправлено в кванде 0.9.1-6. См. Issue #80 on GitHub.