Загрузка куча документов с использованием tm Corpus Мне нужно указать кодировку.установить кодировку для чтения текстовых файлов в tm Corpora
Все документы закодированы в кодировке UTF-8. Если openend через содержимое текстового редактора одобрен, но содержимое корпуса заполнено странными символами (indicioâ., 'Sœs ....) Исходный текст написан на испанском языке. ES_es
library(tm)
cname <- file.path("C:", "Users", "john", "Documents", "texts")
docs <- Corpus(DirSource(cname), encoding ="UTF-8")
> Error in Corpus(DirSource(cname), encoding = "UTF-8") :
unused argument (encoding = "UTF-8")
Редакцией:
Получение ул (документы [1]) из корпуса я заметил:
.. .. $ Язык: CHR "ан"
Как может Я указываю, например, «UTF-8», «Latin1» или любую другую кодировку, чтобы избежать странных символов?
С уважением
Что вы подразумеваете под «странными» - ошибочными символами или символами, которые вы хотите преобразовать в обычный текст (ASCII) без акцентов? –
Странные символы, кажется, являются акцентированными словами и т. Д. Преобразование в ANSI могло бы работать. Латынь тоже. – useRj
Где-то еще я увидел «Кодирование (данные) <-« UTF-8 »', возможно http://stackoverflow.com/questions/24920396/r-corpus-is-messing-up-my-utf-8-encoded- text –