Мне очень нужна. У меня есть корпус, который я преобразовал в общий язык, но некоторые из слов не были правильно переведены на английский. Поэтому в моем корпусе есть символы не ASCII, такие как «(U + 00F8)».Каков наилучший способ удаления не-ASCII-символов из текста Corpus при использовании Quanteda в R?
Я использую Quanteda и я импортировал мой текст, используя этот код:
EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")
Мой корпус состоит из 166 документов. Импортировав документы в R таким образом, что было бы лучшим способом избавиться от этих символов без символов ASCII?
Вы можете сделать это с помощью iconv. См. Этот ответ для получения дополнительной информации: http://stackoverflow.com/a/9935242/5151349 – mkt