2014-01-03 2 views
0

У меня есть набор данных с 1 миллионом строк и 100 столбцов. randomForest довольно медленный для данных, этот большой, поэтому я хотел бы обучить каждое дерево подмножеству, скажем, по 50000 столбцов.Как пробовать строки в пакете randomForest

Как достичь этого с помощью функции randomForest? Мне нужно что-то взломать вручную? Я не могу найти никаких инструкций по этому поводу в виньетке.

ответ

0

Вы имеете в виду, что образец для каждого дерева должен быть другим?

Для начала я бы рассмотрел выборку перед вызовом randomforest. Действительно, тот факт, что вы берете разные образцы для каждого дерева, может повлиять на конечный результат, а матрица важности, вероятно, будет частично предвзятой.

Вы можете добиться этого, делая это:

numrow <- nrow(data) 
subset <- sample(numrow, 50000) 
learn <- data[subset,] 
test <- data[-subset,] 
model_rf <- randomForest(formula=[...], data=learn, importance=T)