Я выполнил LDA в Linux и не получил символов типа «ø» в разделе 2. Однако при запуске в Windows они показывают. Кто-нибудь знает, как с этим бороться? Я использовал пакеты quanteda
и topicmodels
.R в Windows не может обрабатывать некоторые символы
> terms(LDAModel1,5)
Topic 1 Topic 2
[1,] "car" "ø"
[2,] "build" "ù"
[3,] "work" "network"
[4,] "drive" "ces"
[5,] "musk" "new"
Edit:
данных: https://www.dropbox.com/s/tdr9yok7tp0pylz/technology201501.csv
Код что-то вроде этого:
library(quanteda)
library(topicmodels)
myCorpus <- corpus(textfile("technology201501.csv", textField = "title"))
myDfm <- dfm(myCorpus,ignoredFeatures=stopwords("english"), stem = TRUE, removeNumbers = TRUE, removePunct = TRUE, removeSeparators = TRUE)
myDfm <-removeFeatures(myDfm, c("reddit", "redditors","redditor","nsfw", "hey", "vs", "versus", "ur", "they'r", "u'll", "u.","u","r","can","anyone","will","amp","http","just"))
sparsityThreshold <- round(ndoc(myDfm) * (1 - 0.9999))
myDfm2 <- trim(myDfm, minDoc = sparsityThreshold)
LDAModel1 <- LDA(quantedaformat2dtm(myDfm2), 25, 'Gibbs', list(iter=4000,seed = 123))
Я думаю, что разные локации. –
Вы действительно не предоставили достаточно данных, чтобы сделать проблему воспроизводимой. Я предполагаю, что проблема связана с кодировкой файлов. Windows предполагает, что файлы находятся в кодировке «latin-1». Ваша Linux-система может принимать кодировку UTF-8. Важно, чтобы вы знали, какая кодировка использовалась в ваших файлах данных, и правильно считывать данные с помощью правильной кодировки. Вы не показываете какие-либо шаги по импорту, поэтому трудно понять, что вы, возможно, сделали. – MrFlick
Я пробовал разные кодировки, такие как https://support.rstudio.com/hc/en-us/articles/200532197-Character-Encoding, но это не сработало. – user1569341