2016-10-17 25 views
2

Я использую пакет HMeasure для привлечения LDA в мой анализ кредитного риска. У меня 11000 человек, и я выбрал возраст и доход для разработки анализа. Я точно не знаю, как интерпретировать R-результаты LDA. Итак, я не знаю, выбрали ли я лучшие переменные в соответствии с кредитным риском. Ниже я покажу вам код.LDA толкование

lda(default ~ ETA, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA 
0 34.80251 
1 37.81549 

Coefficients of linear discriminants: 
         LD1 
ETA 0.1833161 

lda(default~ ETA + Stipendio,  train) 

Call: 
lda(default ~ ETA + Stipendio, data = train) 

Prior probabilities of groups: 
       0         1 
0.4717286 0.5282714 

Group means: 
      ETA Stipendio 
0 34.80251  1535.531 
1 37.81549  1675.841 

Coefficients of linear discriminants: 
                 LD1 
ETA       0.148374799 
Stipendio 0.001445174 

lda(default~ ETA, train) 
ldaP <- predict(lda, data= test) 

Где ETA = AGE и STIPENDIO = ДОХОД

Спасибо большое!

ответ

1

LDA использует средства и дисперсии каждого класса для создания линейной границы (или разделения) между ними. Эта граница делится на коэффициенты.

У вас есть две разные модели, одна из которых зависит от переменной ETA и той, которая зависит от ETA и Stipendio.

Первое, что вы можете увидеть, это Prior probabilities of groups. Эти вероятности являются теми, которые уже существуют в ваших данных обучения. То есть 47,17% ваших данных обучения соответствуют кредитным рискам, которые оцениваются как 0, а 52,82% ваших данных обучения соответствуют кредитным рискам, оцениваемым как 1. (Я предполагаю, что 0 означает «не рискованный» и 1 означает «рискованный»). Эти вероятности одинаковы в обеих моделях.

Второе, что вы можете видеть, это средства группы, которые являются средними для каждого предиктора в каждом классе. Эти значения могут свидетельствовать о том, что переменная ETA может иметь несколько большее влияние на рискованные кредиты (37.8154), чем на неоригинальные кредиты (34.8025). Эта ситуация также имеет место с переменной Stipendio, в вашей второй модели.

Расчетный коэффициент для ETA в первой модели - 0,1833161. Это означает, что граница между этими двумя различными классами будет определена по следующей формуле:

y = 0.1833161 * ETA 

Это может быть представлено следующей line (x представляет собой переменную ETA). Кредитные риски 0 или 1 будут прогнозироваться в зависимости от того, на какой стороне линии они находятся.

enter image description here

Ваша вторая модель содержит два зависимых переменных, ETA и Stipendio, поэтому граница между классами будет разграниченные по этой формуле:

y = 0.148374799 * ETA + 0.001445174 * Stipendio 

Как вы можете видеть, эта формула представляет собой plane , (x1 представляет ETA и x2 представляет Stipendio). Как и в предыдущей модели, эта плоскость представляет собой разницу между рискованным кредитом и не рискованным.

enter image description here

В этой второй модели, коэффициент ETA намного больше, что коэффициент Stipendio, предполагая, что бывшие переменные имеет большее влияние на кредитных рискованностях, чем поздние переменная.

Надеюсь, это поможет.

 Смежные вопросы

  • Нет связанных вопросов^_^