2015-06-11 6 views
3

Я использую R для очистки уличных адресов с Гавайских островов. Адреса введены с Hawaiian diacritical marks. При использовании R в операционной системе OSX я могу легко использовать gsub() для удаления диакритики; однако ПК с 64-разрядными машинами Windows, работающими под R, показывает странные символы, например «вместо» okina ('). Я подозреваю, что это может быть проблема кодирования и включил параметр кодирования, как следующее:Переплетение текстовых строк с okinas и других гавайских диакритических знаков

address_file <- read.csv("file.csv", encoding="UTF-8") 

Хотя большая часть странного кодирования было решен, R больше не может распознавать определенные диакритический, такие как Окин. Например, я хотел бы использовать следующий синтаксис, но Okina не будут удалены:

gsub("‘", "", hiplaces$name) 

Может кто-то пожалуйста, помогите с решением этой проблемы на компьютере под управлением 64-разрядной Windows. Я подозреваю, что это может быть 1) проблема с кодировкой, и я выбираю неправильную кодировку, или 2) решение gsub, которое может удалить/заменить диакритические символы. Данные, которые я пытаюсь очистить, выглядят примерно так:

hiplaces <- data.frame(id = 1:3) 
hiplaces$name <- c("‘Imiola Congregational Church", "‘Ōla‘a First Hawaiian Congregational Church", "Nā‘ālehu Community Center") 

gsub("‘", "", hiplaces$name) 

TIA.

+0

@Pascal Приношу свои извинения. Компьютер с 64-разрядной ОС Windows (7 для конкретного). – user2300643

+1

Ваш пример работает с языковым набором как 'en_US.UTF-8'. –

ответ

3

Поскольку ваш конечный результат - это набор уличных адресов, вы должны быть в порядке, просто сохраняя только буквенно-цифровые символы. В этом предположении должны работать следующие:

hiplaces <- data.frame(id = 1:3) 
hiplaces$name <- c("‘Imiola Congregational Church", 
        "‘Ōla‘a First Hawaiian Congregational Church", 
        "Nā‘ālehu Community Center") 

hiplaces$name <- gsub("[^[:alnum:]///' ]", "", hiplaces$name) 

> hiplaces$name 
[1] "Imiola Congregational Church" 
[2] "Olaa First Hawaiian Congregational Church" 
[3] "Naalehu Community Center"