У меня есть большой набор данных в формате csv
для построения модели прогнозирования. Из-за его размера я планировал использовать h2o
пакет в R, чтобы построить модель. Однако данные в нескольких столбцах data.frame
содержат некоторые китайские упрощенные символы, и h2o
испытывает трудности с получением данных.R H2O пакет импорта csv файл с китайскими иероглифами
Я пробовал два разных подхода. Первый подход включал прямое чтение из файла с использованием функции h2o.importFile()
для импорта данных. Однако этот подход сводит китайские символы к некоторым грязным кодам.
Второй подход, который я попытался первым привести данные в R используя readr
и основание R read_csv
/read.csv
функции. После правильной загрузки данных в R, я попытался преобразовать data.frame
в рамку h2o
с использованием функции as.h2o
. Хотя, конечный результат этого подхода также привел к перепутанному переводу.
Чтобы проиллюстрировать это, я написал следующую часть кодов в качестве примера:
require(h2o)
dat<-data.frame(x=rep(c("北京","上海"),50),
y=rnorm(mean=10,sd=3,n=100))
h2o.init(nthreads=-1)
h2o.dat<-as.h2o(dat)
Привет @ ab90hi, спасибо за ваш совет. На самом деле, у меня не возникло проблем с чтением исходного набора данных в R и отображением их в качестве соответствующих китайских символов, используя read_csv от dplyr. Задача состоит в том, чтобы импортировать или преобразовать исходный набор данных в H2OFrame и показать их соответствующим образом. –