Я пытаюсь создать разреженную матрицу с числовыми и категориальными данными, которые будут использоваться в качестве входа в cv.glmnet. Когда только числовые данные участвуют, я могу создать разреженную матрицу, используя следующий синтаксисsparseMatrix с числовыми и категориальными данными
sparseMatrix(i=c(1,3,5,2), j=c(1,1,1,2), x=c(1,2,4,3), dims=c(5,2))
Для категориальных переменных следующего подхода, кажется, работает:
sparse.model.matrix(~-1+automobile, data.frame(automobile=c("sedan","suv","minivan","truck","sedan")))
Мой очень редкий экземпляр имеет 1,000,000 наблюдение и 10000 переменные. У меня недостаточно памяти для создания полной матрицы. Единственный способ, с помощью которого я могу создать sparseMatrix, - вручную обрабатывать категориальные переменные, создавая столбцы и преобразуя данные в (i, j, x) формат. Я надеюсь, что кто-то может предложить лучший подход.
Как насчет предоставления выборки данных? – desertnaut