2015-03-04 1 views
-2

Я провел основную логистическую регрессию в R и Julia. Несмотря на то, что я использовал одни и те же данные, я получил разные результаты. Я использовал следующий код:Различные результаты GLM (R vs. julia)

R:

glm(Yi ~ welfare + married + college + agestar + smokernew + wprestar, 
    data=glm_data, family=binomial()) 

R Output: 
Coefficients: 
      Estimate Std. Error z value Pr(>|z|) 
(Intercept) -2.44746 1.02790 -2.381 0.0173 * 
welfare  -13.90825 554.61491 -0.025 0.9800 
married  -0.45701 0.37610 -1.215 0.2243 
college  -0.91454 0.54504 -1.678 0.0934 . 
agestar  0.07857 0.13986 0.562 0.5743 
smokernew  0.78939 0.45357 1.740 0.0818 . 
wprestar  -0.27257 0.11423 -2.386 0.0170 * 

Julia:

glm(Yi ~ welfare + married + college + agestar + smokernew + wprestar, 
    glm_data, Binomial(), LogitLink()) 

Julia Output: 
Coefficients: 
       Estimate Std.Error z value Pr(>|z|) 
(Intercept) -2.44746 1.0279 -2.38104 0.0173 
welfare  -9.90825 75.0597 -0.132005 0.8950 
married  -0.457005 0.376097 -1.21513 0.2243 
college  -0.914541 0.545042 -1.67793 0.0934 
agestar  0.0785672 0.139856 0.561774 0.5743 
smokernew  0.789386 0.453571 1.74038 0.0818 
wprestar  -0.27257 0.114234 -2.38605 0.0170 

Почему?

Все коэффициенты одинаковы, за исключением переменной благосостояния. Я проверил свои фреймы данных, и они точно такие же.

+6

Возможно, разные значения по умолчанию для обработки дискретных переменных. Выведите некоторый результат. Мы не можем видеть ваш экран. –

+1

И, возможно, краткое изложение данных, чтобы мы, по крайней мере, знали, как выглядит переменная 'welfare'. Является ли он двоичным? Закодировано как категорическое? Есть ли недостающие значения? – Gregor

+0

Выход теперь легче читать. Также переменная благосостояния представляет собой вектор 1s и 0s длины 3000 с 47 1s. –

ответ

3

Не смотря на ваши данные, я собираюсь предположить, что у вас есть близкое к полному разнесению по классам ответов на вашей переменной welfare. Оценка (+/-) 13 в логистической шкале по существу (+/-) бесконечность, что соответствует оценкам вероятности нуля или единицы. Оценка Юлии -9.9 по существу такая же, за исключением того, что она может немного прекратить итерации, поэтому возвращает немного меньшее значение бесконечности.

Это называется Hauck-Donner phenomenon, и вы можете найти questions about it on CrossValidated.com (статистика/сайт ML StackExchange).

+0

Спасибо Hong! Это имеет смысл! –