2017-02-09 9 views
1

Я довольно новичок в decision trees и немного беспокоюсь, интерпретируя их, когда я двигаюсь вниз по ветвям. У меня есть несколько вопросов относительно сюжета, который был сделан на R. Ответная переменная: Survived (Yes/No), которая должна быть указана по возрасту, стоимости проезда, количеству братьев и сестер и числу родителей. Я приложил дерево решений ниже, используя Kaggle's Titanic набор данных.Толкование дерева решений (данные Titanic)

  1. Что означают разные цвета зеленого/синего?
  2. Как интерпретировать листовые узлы?
  3. Я понимаю, что самый верхний узел inteprets до 38% выжил, 62% сделал не выжить, и 100% населения находится в этом ведре. Если я переместил вправо ... как бы я интерпретировал Bucket # 3? И если я продолжаю идти, Ведро # 6? И т.д. и т.п. ...

Titanic Decision Tree

ответ

0

1) Узел окрашен в соответствии с классом большинства соответствующего узла. Узлы с меткой мажоритарного класса, как no (не сохранились), окрашены в зеленый цвет, иначе синий (yes или сохранился).

2) Давайте интерпретировать крайний левый узел внизу. 83% данных, соответствующих узлу, имеет метку класса no и 17% имеет метку класса yes. Эти узлы содержат 62% datapoints из всего набора данных.

3) Ковш # 3 может быть аналогичным образом интерпретировать: 26% из точек данных, соответствующих узел имеет класс метку no и 74% имеет класс этикетки yes. Эти узлы содержат 35% datapoints из всего набора данных. Если вы вычисляете взвешенную долю меток no для узлов №2 и №3, вы получите 0.65*0.81+0.35*0.26=0.6175~0.62, то есть долю данных в корневом узле, который содержит метку no.

+1

Действительно полезно, спасибо. Будет ли эта интерпретация Века № 3 действительной? 1) 74% выжили, если они были женщинами (в пределах 35% от данных) 2) 26% не выдержали, если они были женщинами (в пределах 35% от данных) –

+0

да, абсолютно. –