Я использую пакет h2o для создания модели регрессии RandomForest. У меня есть некоторые проблемы с важностью переменных. Модель, которую я создаю, здесь. Все работает нормально.h2o randomForest variable important
Некоторые из переменных являются числовыми, но некоторые из них категоричны.
RandomForest <- h2o.randomForest(x = c("Year", "Month", "Day", "Time", "Show", "Gen",
"D", "Lead"), y = "Ratio", data = data.hex, importance=T, stat.type = "GINI",
ntree = 50, depth = 50, nodesize = 5, oobee = T, classification = FALSE, type = "BigData")
Однако, когда я хочу видеть переменную важность, результат выглядит следующим образом.
Classification: FALSE
Number of trees: 50
Tree statistics:
Min. Max. Mean.
Depth 30 40 33.26
Leaves 20627 21450 21130.24
Variable importance:
Year Month Day Time Show Gen D Lead
Relative importance 20536.64 77821.76 26742.55 67476.75 283447.3 60651.24 87440.38 3658.625
Standard Deviation NA NA NA NA NA NA NA NA
Z-Scores NA NA NA NA NA NA NA NA
Overall Mean-squared Error:
То, что я хотел бы знать: 1) Почему не может быть значения NA. 2) Что на самом деле означает относительное значение. Разве это не должно быть от 1 до 100? 3) Почему на выходе нет матрицы замешательства?
Спасибо за помощь!
Является ли ваш результат ('y') переменной непрерывной? На выходе записано 'Классификация: FALSE'. Матрица замешивания применяется только к категориальным переменным результата. – eipi10