2016-03-22 6 views
0

У меня есть большой набор данных из почти 10000 строк и 10 столбцов. Я хочу сделать классификацию в этом наборе данных, используя пакет rpart. Но в каждой колонке много (более 50) классов. Так что R просто зависает.Использование пакета rpart на большом наборе данных

Каковы мои возможности ограничить объем данных или уменьшить количество классов в каждом столбце?

ответ

0

Это называется стратифицированной выборкой, где вы хотите, чтобы доля классов оставалась одинаковой при уменьшении набора данных. Используйте createDataPartition из пакета caret.

table(iris$Species) 
library(caret) 
trainIndex <- createDataPartition(iris$Species, p = .8,list = FALSE,times = 1) 
table(iris[trainIndex,]$Species) 

Заменить диафрагму с именем набора данных

+0

Марк, как право, если это решит вашу проблему. Спасибо –

+0

Дайте мне знать, если есть какие-либо сомнения в параметрах. Помогло ли вам решить вашу проблему. Отметьте ответ, если он сработает –