2015-02-09 1 views
4

Включает ли пакет randomForest параметр nodesize? Когда я предсказываю конечные узлы для набора данных и проверяю количество отсчетов, я вижу значения, которые меньше, чем nodesize. Я бы сам исправил это, но основной код был написан в Fortran. Если кто-то может подтвердить это поведение, я обращусь к сопровождающему пакета и надеюсь, что вы начнете исправление.параметр nodeize игнорируется в пакете randomForest

> library(randomForest) 
> set.seed(1) 
> rf <- randomForest(mtcars[,-1], mtcars[,1], nodesize = 5) 
> nodes <- attr(predict(rf, mtcars[,-1], nodes = TRUE), 'nodes') 

# node counts of first tree 
> table(nodes[,1]) 

# first row is the terminal node ID#, second row is the count 
2 6 9 10 11 14 15 16 18 19 
5 3 3 6 4 2 3 1 3 2 

Добавление системной инфы:

Session info---------------------------------------------------------------- 
setting value      
version R version 3.1.1 (2014-07-10) 
system x86_64, mingw32    
ui  RStudio (0.98.1049)   
language (EN)       
collate English_United States.1252 
tz  America/Chicago    

Packages-------------------------------------------------------------------- 
package  * version date  source   
randomForest * 4.6.10 2014-07-17 CRAN (R 3.1.1) 
+0

Слышали ли вы что-нибудь от сопровождающего пакета? У меня такая же проблема ... – User7598

+1

Он сказал мне, что он закодирован в оригинальной спецификации Бреймана и Катлера и что он будет только менять документацию. Чтобы решить эту проблему, я постобрабовал RF, предсказывая и опуская узлы, которые опускаются ниже моего удобства в узлах. – Zelazny7

ответ

0

Ответ сопровождающим пакета:

Этот параметр ведет себя как так, предназначенный Лео Бреймана. Ошибка описания . Это так же, как minsplit в в rpart:::rpart.control() функции:

минимальное число наблюдений, которые должны быть в узле, чтобы для раскола быть предпринято.

Я изменю описание в файле справки в следующей версии до , чтобы устранить эту путаницу.

Лучшие Энди