Я хотел бы сделать деревья классификации, чтобы предсказать наличие/отсутствие 1 вида птиц на основе нескольких переменных. Я знаю, что rpart обрабатывает одномерное разбиение, а mvpart обрабатывает многомерное разбиение на разделы, но я хотел бы использовать mvpart для моего дерева с одной переменной из-за его более гибкого вывода. Кто-нибудь знает причину, по которой я не должен этого делать? Разделимы будут разные в rpart vs mvpart с тем же самым точным вводом?Правила разделения в mvpart vs rpart
ответ
Нельзя гарантировать, что расколы будут одинаковыми; mvpart()
минимизирует внутригрупповые суммы квадратов, тогда как rpart
для дерева классификации будет минимизировать коэффициент Джини (по умолчанию IIRC).
Возможно, у вас может быть одна и та же модель/раскол, но поскольку две функции используют две различные меры примеси узлов, это может быть просто случайностью.
FYI, mvpart
подходит для модели регрессии, но вам нужна классификация.
И наконец, рассмотрите возможность использования пакета и его функции ctree
; он имеет гораздо более приятные результаты, чем rpart
по умолчанию, но, опять же, делает что-то немного другое с точки зрения подгонки модели.
Как и в сторону, а также заглянуть в plotmo пакет, который включает в себя расширенные участки для ряда древовидных моделей, включая, IIRC, rpart
из них.