2015-01-19 8 views
2

(ранее размещен here, с неправильной подпиской, с недостаточной информацией, которая была закрыта, я редактировал, редактирование, похоже, было удалено, & сообщение отправлено в чистилище , поэтому извинения за повторную публикацию, я не знаю, может ли/должен быть воскрешен предыдущий пост)(R) Графические диаграммы BRT от gbm.step

В R, я запустить некоторые форсированную регрессию дерева, иначе Обобщенные Повышая Модели, используя dismo, который использует gbm. Воспроизводимый пример, чтобы заставить человек, где я нахожусь в данный момент:

library(dismo); data(Anguilla_train) 
angaus.tc5.lr01 <- gbm.step(data=Anguilla_train, gbm.x = 3:13, gbm.y = 2, family = "bernoulli", tree.complexity = 5, learning.rate = 0.01, bag.fraction = 0.5) 

(От here). Это оставляет вам объект модели gbm «angaus.tc5.lr01». Я хотел бы генерировать дендрограммы расщеплений (сгибов?), Т. Е. Строить деревья в соответствии с De'ath 2007 (см. Рис., Левая панель). НО: график Де'ата имеет одно дерево регрессии, а не усиленное дерево регрессии, которое является средним из потенциально тысяч деревьев, каждый из которых работает с другим набором данных, случайным образом вычисленным из набора данных.

Пользователь ckluss любезно предложил rpart, однако, что нуждается в модели, чтобы быть порожденной rpart так не работает для чернышей/GBMs производства gbm.step. То же самое относится к prp от rpart.plot.

pretty.gbm.tree в gbm извлекает матрицу информации для любого выбранного дерева (попробуйте pretty.gbm.tree(angaus.tc5.lr01, i.tree=1) для первого), поэтому мне интересно, может ли это быть правдоподобным путем к успеху? Например. написав некоторый скрипт, который создает усредненную древовидную матрицу, используя все доступные деревья, а затем преобразует ее в древовидный объект, возможно используя некоторые из методов here.

Люди задавали разные вопросы, казалось бы, без успеха в другом месте в сети. Модели BRT регулярно описываются как «черные ящики», поэтому, возможно, общее мнение заключается в том, что не нужно/быть в состоянии/не пытаться исследовать их и демонстрировать свои внутренние процессы.

Если кто-то знает достаточно о BRTs/gbm и имеет любые идеи, они были бы с благодарностью приняты. Спасибо.

De'ath tree diagram

+0

Проблема в том, что нет «среднего» дерева, так же как нет среднего дерева для randomForest. Например, что, если первый узел разветвляется на числовую переменную половину времени и категориальную переменную в другой половине? что, если некоторые категориальные ветви находятся на домене {A, B, C} и других {C, D, E}? Это просто невозможно. – Chris

ответ

1

Трактовка дерева решений ансамблей гораздо сложнее, чем интерпретация отдельных деревьев, как Вы отмечаете. Геометрически вы можете думать о ансамбле дерева решений как о приближении сложной, высокоразмерной поверхности. Цель состоит в том, чтобы найти переменные, которые способствуют приближению, и визуализировать их эффекты.

Основная идея интерпретации ансамбля заключается не в том, чтобы получить «среднее» дерево, либо получить графики любого из отдельных деревьев, а визуализировать «средний» эффект переменной. В литературе это «частичная зависимость» предиктора - это эффект, удерживающий другие переменные постоянными. Как оценивается «частичная зависимость», это немного сложно описать, но именно модель подразумевает предсказания, полученные путем разрешения только предиктора j для изменения, для наблюдения i. Затем прогнозы усредняются по всем i наблюдениям. См. Friedman & Popescue (2008) для подробностей.

Затем вы можете построить оценочную зависимость (или то, что я называю «эффект подразумеваемой модели») предиктора, против фактических значений предиктора. Это позволит вам увидеть модель предполагаемого эффекта предиктора.

Хорошей новостью является то, что такие графики можно получить в dismo довольно легко. См. gbm.plot для одиночных предикторов и gbm.perspec для перспективных графиков с участием двух предикторов. Виньетка также содержит примеры. Чтобы дополнительно помочь интерпретировать модель, gbm.interactions обеспечивает способ обнаружения возможных 2 или 3-сторонних взаимодействий. См. this question для получения более подробной информации.

+1

благодарит Патрика. У меня уже есть gbm.plots в моей статье, а также различные другие графики, которые, как я полагал, были бы достаточными, но меня попросили дать древовидные диаграммы рецензента ... хотя вопрос не имеет смысла! Я закончил тем, что спросил Джейн Элит, как она это сделала, и она сказала, что просто составила одну из отдельных и использовала ее в качестве примера, потому что запрос не имеет смысла, но люди интуитивно просят об этом! Привет, он опубликовал это сейчас так далее и вверх;) –

+0

Поздравляем! Рад, что вы это выяснили. – patr1ckm