Я бы использовал квантовую систему Ben-Rate для анализа статей, экспортированных из lexisnexis. Экспорт находится в стандартном html-формате. Я использую плагин tm package + для чтения вывода lexisnexis. К сожалению, возникает ошибка при преобразовании tm-corpus в quanteda-corpus. Разве эта функция сломана, или есть что-то, что я ошибаюсь раньше?Импорт данных lexisnexis в R quanteda
library("tm")
library("tm.plugin.lexisnexis")
library("quanteda")
ln <- LexisNexisSource("lexisnexisOutput.html")
cr <- Corpus(ln)
crp <- corpus(cr)
Error in UseMethod("corpus") :
no applicable method for 'corpus' applied to an object of class "list"
In addition: Warning message:
In corpus(texts, docvars = metad, source = paste("Converted from tm VCorpus '", :
Arguments docvarssource not used.
Непонятно, откуда происходит ваш «файл», но вместо него заменяется тестовым файлом из самого пакета ('file <- system.file (« тексты »,« lexisnexis_test_en.html », package =« tm.plugin » .lexisnexis "); ln <- LexisNexisSource (файл)') также, похоже, вызывает ту же ошибку. Похоже, что что-то вышло из синхронизации с разными версиями. Можете ли вы уточнить, какие версии пакетов вы используете ('sessionInfo()' должен сказать вам)? – MrFlick
Спасибо за быстрый ответ. Пакеты должны быть актуальными. quanteda_0.9.0-1 tm.plugin.lexisnexis_1.2 tm_0.6-2 Я не уверен, что именно вы подразумеваете под тем, откуда происходит этот файл? Его формат является образцом как пример файла lexisnexis_test_en.html – bstn
Я предлагаю подать вопрос на https://github.com/kbenoit/quanteda/issues, и мы это исправим. Помогло бы, если бы вы отправили мне по электронной почте файл 'lexisnexisOutput.html'. –