2013-10-02 4 views
11

Пожалуйста, помогите интерпретировать результаты логистической регрессии, созданной weka.classifiers.functions.Logistic из библиотеки Weka.Как интерпретировать выход регрессии Weka Logistic?

Я использую цифровые данные из примеров ВЕКА:

@relation weather 

@attribute outlook {sunny, overcast, rainy} 
@attribute temperature real 
@attribute humidity real 
@attribute windy {TRUE, FALSE} 
@attribute play {yes, no} 

@data 
sunny,85,85,FALSE,no 
sunny,80,90,TRUE,no 
overcast,83,86,FALSE,yes 
rainy,70,96,FALSE,yes 
rainy,68,80,FALSE,yes 
rainy,65,70,TRUE,no 
overcast,64,65,TRUE,yes 
sunny,72,95,FALSE,no 
sunny,69,70,FALSE,yes 
rainy,75,80,FALSE,yes 
sunny,75,70,TRUE,yes 
overcast,72,90,TRUE,yes 
overcast,81,75,FALSE,yes 
rainy,71,91,TRUE,no 

Для создания модели логистической регрессии Я использую команду: Java -cp $ WEKA_INS/weka.jar weka.classifiers.functions.Logistic -t $ WEKA_INS/данные/weather.numeric.arff -Т $ WEKA_INS/данные/weather.numeric.arff -d ./weather.numeric.model.arff

Здесь три аргумента означают:

-t <name of training file> : Sets training file. 
-T <name of test file> : Sets test file. 
-d <name of output file> : Sets model output file. 

Ru nning вышеуказанную команду произвести следующий вывод:

Logistic Regression with ridge parameter of 1.0E-8 
Coefficients... 
       Class 
Variable     yes 
=============================== 
outlook=sunny   -6.4257 
outlook=overcast  13.5922 
outlook=rainy   -5.6562 
temperature    -0.0776 
humidity    -0.1556 
windy     3.7317 
Intercept    22.234 

Odds Ratios... 
       Class 
Variable     yes 
=============================== 
outlook=sunny   0.0016 
outlook=overcast 799848.4264 
outlook=rainy   0.0035 
temperature    0.9254 
humidity     0.8559 
windy     41.7508 


Time taken to build model: 0.05 seconds 
Time taken to test model on training data: 0 seconds 

=== Error on training data === 
Correctly Classified Instances   11    78.5714 % 
Incorrectly Classified Instances   3    21.4286 % 
Kappa statistic       0.5532 
Mean absolute error      0.2066 
Root mean squared error     0.3273 
Relative absolute error     44.4963 % 
Root relative squared error    68.2597 % 
Total Number of Instances    14  

=== Confusion Matrix === 
a b <-- classified as 
7 2 | a = yes 
1 4 | b = no 

Вопросы:

1) Первая часть доклада:

Coefficients... 
       Class 
Variable     yes 
=============================== 
outlook=sunny   -6.4257 
outlook=overcast  13.5922 
outlook=rainy   -5.6562 
temperature    -0.0776 
humidity    -0.1556 
windy     3.7317 
Intercept    22.234 

1,1) Должен ли я понимаю правильно, что "Коэффициенты", на самом деле веса, которые применяются к каждому атрибуту , прежде чем добавлять их вместе для получения значения атрибута класса «играть», равного «да»?

2) Вторая часть доклада:

Odds Ratios... 
       Class 
Variable     yes 
=============================== 
outlook=sunny   0.0016 
outlook=overcast 799848.4264 
outlook=rainy   0.0035 
temperature    0.9254 
humidity     0.8559 
windy     41.7508 

2,1) Какое значение "отношение шансов"? 2.2) Все ли они также относятся к атрибуту класса «play», равному «yes»? 2.3) Почему значение «outlook = overcast» намного больше, чем значение «outlook = sunny»?

3)

=== Confusion Matrix === 
a b <-- classified as 
7 2 | a = yes 
1 4 | b = no 

3,1) Что такое menaing замешательства Матрицы?

Большое спасибо за помощь!

+1

+1 для красиво оформленного вопроса. – Salil

+0

Перекрестная ссылка на http://stats.stackexchange.com/questions/71684. – whuber

ответ

11

Вопрос:

  1. Вы в основном правильно. Коэффициенты на самом деле являются весами, которые применяются к каждому атрибуту перед их объединением. Однако, результатом является вероятность того, что новый экземпляр принадлежит классу да (> 0,5 означает «да»).

  2. Коэффициенты шансов показывают, насколько значительным будет влияние изменения этого значения (или изменения на это значение) на предсказание. Я думаю, что это link отлично справляется с соотношением шансов. Значение outlook = overcast настолько велико, что, если прогноз слишком пасмурный, шансы очень хорошие, что игра будет равна да.

  3. Матрица замешательства просто показывает вам, сколько из тестовых точек данных правильно и неправильно классифицировано. В вашем примере 7 A были классифицированы как A, где 2 A были неправильно классифицированы как B. На ваш вопрос более подробно ответил на этот вопрос: How to read the classifier confusion matrix in WEKA.

+4

1. строго неверно: результат (добавления с весами) подключается к логистической функции '1/(1 + exp (-weighted_sum))' для получения вероятностей. Обратите внимание, что значение «Перехват» добавляется к сумме без умножения на какую-либо из ваших переменных. – drevicko

+1

ссылка на соотношение шансов сломана ... –