2016-07-04 6 views
4

Мне очень нужна. У меня есть корпус, который я преобразовал в общий язык, но некоторые из слов не были правильно переведены на английский. Поэтому в моем корпусе есть символы не ASCII, такие как «(U + 00F8)».Каков наилучший способ удаления не-ASCII-символов из текста Corpus при использовании Quanteda в R?

Я использую Quanteda и я импортировал мой текст, используя этот код:

EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM") 

Мой корпус состоит из 166 документов. Импортировав документы в R таким образом, что было бы лучшим способом избавиться от этих символов без символов ASCII?

+0

Вы можете сделать это с помощью iconv. См. Этот ответ для получения дополнительной информации: http://stackoverflow.com/a/9935242/5151349 – mkt

ответ

4

Попытка:

texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "") 

Это преобразует кодировку ASCII, заменяя любые не переводимые символы (тех, кто не в диапазоне 0-127 ASCII) в ничто.

+0

- это 'gsub ('[^ - ~]', '', x)' возможный подход, который может быть быстрее? Я в отпуске, поэтому нет R, чтобы испытать себя. –

+1

Спасибо, ребята, оба решения отлично работали – Ricardo

+0

Как мы узнаем, как конвертировать из UTF-8 в ASCII? Документ с подробным описанием этого будет полезен. Благодаря! –

 Смежные вопросы

  • Нет связанных вопросов^_^