Я пытаюсь работать с префиксом randomForest для 32 уровней для факторов.R выборка для того, чтобы обойти randomFest 32-факторный предел
У меня есть набор данных со 100 уровнями в одной из переменных факторов.
Я написал следующий код, чтобы увидеть, что будет выглядеть с использованием выборки с заменой и количеством попыток, необходимых для получения определенных% выбранных уровней.
sampAll <- c()
nums1 <- seq(1,102,1)
for(i in 1:20){
samp1 <- sample(nums1, 32)
sampAll <- unique(cbind(sampAll, samp1))
outSamp1 <- nums1[-(sampAll[,1:ncol(sampAll)])]
print(paste(i, " | Remaining: ",length(outSamp1)/102,sep=""))
flush.console()
}
[1] "1 | Remaining: 0.686274509803922"
[1] "2 | Remaining: 0.490196078431373"
[1] "3 | Remaining: 0.333333333333333"
[1] "4 | Remaining: 0.254901960784314"
[1] "5 | Remaining: 0.215686274509804"
[1] "6 | Remaining: 0.147058823529412"
[1] "7 | Remaining: 0.117647058823529"
[1] "8 | Remaining: 0.0980392156862745"
[1] "9 | Remaining: 0.0784313725490196"
[1] "10 | Remaining: 0.0784313725490196"
[1] "11 | Remaining: 0.0490196078431373"
[1] "12 | Remaining: 0.0294117647058824"
[1] "13 | Remaining: 0.0196078431372549"
[1] "14 | Remaining: 0.00980392156862745"
[1] "15 | Remaining: 0.00980392156862745"
[1] "16 | Remaining: 0.00980392156862745"
[1] "17 | Remaining: 0.00980392156862745"
[1] "18 | Remaining: 0"
[1] "19 | Remaining: 0"
[1] "20 | Remaining: 0"
То, что я обсуждаю, является ли образец с заменой или без замены.
Я думаю о:
- получить образец 32 из 100 факторов,
- , используя эти строки для запуска RandomForest,
- предсказанием тестового набора с RandomForest и
- , повторяя этот процесс либо (a) 3 (БЕЗ замены), либо (b) 10-15 раз (с заменой).
- Принимая 3 или 10-15 прогнозируемых значений, находим среднее значение и используем это как окончательный предиктор.
Мне интересно, если кто-то пробовал что-то подобное или если я нарушаю какие-либо правила (вводя предвзятость и т. Д.), Или если у кого-то есть предложения.
ПРИМЕЧАНИЕ: Я перекрестно поставил этот вопрос на Stats-Overflow/Cross-Validated.
Закрыто в межсайтовому боян: http://stats.stackexchange.com/questions/20731/sampling-to-get-around-randomforests-32-factor-level-limit – casperOne