2015-06-30 3 views
1

Я понимаю, что ROC рисуется между tpr и fpr, но у меня возникают трудности в определении того, какие параметры я должен меняться, чтобы получить различные tpr/fpr пара.ROC для случайного леса

ответ

1

Я написал это answer по аналогичному вопросу.

В основном вы можете увеличить взвешивание на определенных классах и/или понизить другие классы и/или изменить правило агрегации голосов.

[[Изменено 13.15PM CEST 1 июля 2015]] @ «два класса очень сбалансировано - Suryavansh»

В таком случае ваши данные уравновешивается вы должны в основном идти с опцией 3 (изменение правила агрегации) , В randomForest это может быть доступно с параметром отсечки либо при обучении, либо при прогнозировании. В других настройках вам может понадобиться извлечь все кросс-проверенные голоса из всех деревьев, применить ряд правил и вычислить полученные fpr и fnr.

library(randomForest) 
library(AUC) 

#some balanced data generator 
make.data = function(obs=5000,vars=6,noise.factor = .4) { 
    X = data.frame(replicate(vars,rnorm(obs))) 
    yValue = with(X,sin(X1*pi)+sin(X2*pi*2)^3+rnorm(obs)*noise.factor) 
    yClass = (yValue<median(yValue))*1 
    yClass = factor(yClass,labels=c("red","green")) 
    print(table(yClass)) #five classes, first class has 1% prevalence only 
    Data=data.frame(X=X,y=yClass) 
} 

#plot true class separation 
Data = make.data() 
par(mfrow=c(1,1)) 
plot(Data[,1:2],main="separation problem: predict red/green class", 
    col = c("#FF000040","#00FF0040")[as.numeric(Data$y)]) 

enter image description here

#train default RF 
rf1 = randomForest(y~.,Data) 
#you can choose a given threshold from this ROC plot 
plot(roc(rf1$votes[,1],rf1$y),main="chose a threshold from") 

enter image description here

#create at testData set from same generator 
testData = make.data() 


#predict with various cutoff's 
predTable = data.frame(
    trueTest = testData$y, 
    majorityVote = predict(rf1,testData), 
    #~3 times increase false red 
    Pred.alot.Red = factor(predict(rf1,testData,cutoff=c(.3,.1))), 
    #~3 times increase false green 
    Pred.afew.Red = factor(predict(rf1,testData,cutoff=c(.1,.3))) 
) 

#see confusion tables 
table(predTable[,c(1,2)])/5000 
     majorityVote 
trueTest red green 
    red 0.4238 0.0762 
    green 0.0818 0.4182 

.

table(predTable[,c(1,3)])/5000 
     Pred.alot.Red 
trueTest red green 
    red 0.2902 0.2098 
    green 0.0158 0.4842 

.

table(predTable[,c(1,4)])/5000 
     Pred.afew.Red 
trueTest red green 
    red 0.4848 0.0152 
    green 0.2088 0.2912 

.

+0

Два класса очень сбалансированы – Suryavanshi

 Смежные вопросы

  • Нет связанных вопросов^_^