2016-04-29 6 views
-2

Я работаю в текстовой обработке с испанскими twitts, моя проблема в том, что у меня есть те же слова, но разными способами (с акцентом и без акцента), например: accion, acción.Уборка акцента в тексте twitter

Я пытался использовать кодировку: unicode «UTF-8», но не работает. моя библиотека библиотека (стринги) библиотеки (щебет) библиотеки (тм) библиотеки (Wordcloud) библиотека (RColorBrewer)

+1

Пожалуйста, прочитайте информацию о [как задать хороший вопрос] (HTTP : //stackoverflow.com/help/how-to-ask) и как дать [воспроизводимый пример] (http://stackoverflow.com/questions/5963269). Это облегчит вам помощь другим людям. – zx8754

+0

Что вы можете сделать, так это создать «базу данных» ударных символов и то, что они переводили. Затем примените это к индивидуальному твиту и «вымыть» символы с акцентом. Например, вы можете использовать 'sub'. –

ответ

0

Вы не указали ясно, что вы пытаетесь сделать с Accessed твитов (экономия в текстовый файл или как файл данных и т. д.). Если вы используете кодировку UTF-8, она в основном сохранит букву как есть.

con <- file("C:/Dir1/sub_dir1/output/output.txt", encoding = "UTF-8") 
write(df, file = con) 

Однако, если вы пытаетесь изменить этот акцент символы в нормальный эквивалентный Самый простой способ будет использовать iconv

iconv("acción", to='ASCII//TRANSLIT') 
>[1] "accion" 

 Смежные вопросы

  • Нет связанных вопросов^_^