Я использую R для очистки уличных адресов с Гавайских островов. Адреса введены с Hawaiian diacritical marks. При использовании R в операционной системе OSX я могу легко использовать gsub() для удаления диакритики; однако ПК с 64-разрядными машинами Windows, работающими под R, показывает странные символы, например «вместо» okina ('). Я подозреваю, что это может быть проблема кодирования и включил параметр кодирования, как следующее:Переплетение текстовых строк с okinas и других гавайских диакритических знаков
address_file <- read.csv("file.csv", encoding="UTF-8")
Хотя большая часть странного кодирования было решен, R больше не может распознавать определенные диакритический, такие как Окин. Например, я хотел бы использовать следующий синтаксис, но Okina не будут удалены:
gsub("‘", "", hiplaces$name)
Может кто-то пожалуйста, помогите с решением этой проблемы на компьютере под управлением 64-разрядной Windows. Я подозреваю, что это может быть 1) проблема с кодировкой, и я выбираю неправильную кодировку, или 2) решение gsub, которое может удалить/заменить диакритические символы. Данные, которые я пытаюсь очистить, выглядят примерно так:
hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church", "‘Ōla‘a First Hawaiian Congregational Church", "Nā‘ālehu Community Center")
gsub("‘", "", hiplaces$name)
TIA.
@Pascal Приношу свои извинения. Компьютер с 64-разрядной ОС Windows (7 для конкретного). – user2300643
Ваш пример работает с языковым набором как 'en_US.UTF-8'. –