Переплетение текстовых строк с okinas и других гавайских диакритических знаков

Я использую R для очистки уличных адресов с Гавайских островов. Адреса введены с Hawaiian diacritical marks. При использовании R в операционной системе OSX я могу легко использовать gsub() для удаления диакритики; однако ПК с 64-разрядными машинами Windows, работающими под R, показывает странные символы, например «вместо» okina ('). Я подозреваю, что это может быть проблема кодирования и включил параметр кодирования, как следующее:Переплетение текстовых строк с okinas и других гавайских диакритических знаков

address_file <- read.csv("file.csv", encoding="UTF-8")

Хотя большая часть странного кодирования было решен, R больше не может распознавать определенные диакритический, такие как Окин. Например, я хотел бы использовать следующий синтаксис, но Okina не будут удалены:

gsub("‘", "", hiplaces$name)

Может кто-то пожалуйста, помогите с решением этой проблемы на компьютере под управлением 64-разрядной Windows. Я подозреваю, что это может быть 1) проблема с кодировкой, и я выбираю неправильную кодировку, или 2) решение gsub, которое может удалить/заменить диакритические символы. Данные, которые я пытаюсь очистить, выглядят примерно так:

hiplaces <- data.frame(id = 1:3) 
hiplaces$name <- c("‘Imiola Congregational Church", "‘Ōla‘a First Hawaiian Congregational Church", "Nā‘ālehu Community Center") 

gsub("‘", "", hiplaces$name)

TIA.

источник

2015-06-11 user2300643

@Pascal Приношу свои извинения. Компьютер с 64-разрядной ОС Windows (7 для конкретного). – user2300643

Ваш пример работает с языковым набором как 'en_US.UTF-8'. –

Поскольку ваш конечный результат - это набор уличных адресов, вы должны быть в порядке, просто сохраняя только буквенно-цифровые символы. В этом предположении должны работать следующие:

hiplaces <- data.frame(id = 1:3) 
hiplaces$name <- c("‘Imiola Congregational Church", 
        "‘Ōla‘a First Hawaiian Congregational Church", 
        "Nā‘ālehu Community Center") 

hiplaces$name <- gsub("[^[:alnum:]///' ]", "", hiplaces$name) 

> hiplaces$name 
[1] "Imiola Congregational Church" 
[2] "Olaa First Hawaiian Congregational Church" 
[3] "Naalehu Community Center"

источник

2015-06-11 05:52:51

Переплетение текстовых строк с okinas и других гавайских диакритических знаков

ответ

Смежные вопросы