Я использую пакет randomForest
для выполнения двоичной классификации. Я хотел бы спросить, как randomForest()
определяет количество узлов в каждом дереве? Я думаю, что число узлов сохраняется в модели $ forest $ nrnodes. Я исправлю здесь?Как определить количество узлов в случайном лесу в R
В моем наборе данных у меня есть 10 000 положительных и 70 000 отрицательных образцов. Я создаю несколько моделей с параметрами по умолчанию, за исключением количества деревьев 50, 100, 200 и 500. Их производительность довольно схожа. Количество узлов каждой модели также очень похоже, около 1400.
Может ли кто-нибудь объяснить, как этот 1400 вычисляется? Какой параметр используется для управления количеством узлов в каждом дереве? Любые советы будут высоко оценены!
для классификации 'randomForest' полностью строит деревья, пока в каждом узле не будет 5 наблюдений. Затем он выбирает мажоритарный класс как предсказание. – Zelazny7
Общее количество узлов будет зависеть от того, сколько раз расщепляется 'randomForest' при построении дерева. Как отметил @ Zelazny7, каждый «лист» будет иметь 5 наблюдений. –
Что касается параметра, который управляет количеством узлов, он зависит от двух параметров: 'maxnodes' и' ntree' – Zelazny7