Я провел основную логистическую регрессию в R и Julia. Несмотря на то, что я использовал одни и те же данные, я получил разные результаты. Я использовал следующий код:Различные результаты GLM (R vs. julia)
R:
glm(Yi ~ welfare + married + college + agestar + smokernew + wprestar,
data=glm_data, family=binomial())
R Output:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.44746 1.02790 -2.381 0.0173 *
welfare -13.90825 554.61491 -0.025 0.9800
married -0.45701 0.37610 -1.215 0.2243
college -0.91454 0.54504 -1.678 0.0934 .
agestar 0.07857 0.13986 0.562 0.5743
smokernew 0.78939 0.45357 1.740 0.0818 .
wprestar -0.27257 0.11423 -2.386 0.0170 *
Julia:
glm(Yi ~ welfare + married + college + agestar + smokernew + wprestar,
glm_data, Binomial(), LogitLink())
Julia Output:
Coefficients:
Estimate Std.Error z value Pr(>|z|)
(Intercept) -2.44746 1.0279 -2.38104 0.0173
welfare -9.90825 75.0597 -0.132005 0.8950
married -0.457005 0.376097 -1.21513 0.2243
college -0.914541 0.545042 -1.67793 0.0934
agestar 0.0785672 0.139856 0.561774 0.5743
smokernew 0.789386 0.453571 1.74038 0.0818
wprestar -0.27257 0.114234 -2.38605 0.0170
Почему?
Все коэффициенты одинаковы, за исключением переменной благосостояния. Я проверил свои фреймы данных, и они точно такие же.
Возможно, разные значения по умолчанию для обработки дискретных переменных. Выведите некоторый результат. Мы не можем видеть ваш экран. –
И, возможно, краткое изложение данных, чтобы мы, по крайней мере, знали, как выглядит переменная 'welfare'. Является ли он двоичным? Закодировано как категорическое? Есть ли недостающие значения? – Gregor
Выход теперь легче читать. Также переменная благосостояния представляет собой вектор 1s и 0s длины 3000 с 47 1s. –