2016-12-07 10 views
-1

Я следующий входные данные:Крупномасштабных данные логистической регрессия

head(data1) 
       VarA VarB VarC   VarD VarE VarG VarH VarI 
2016-06-01 09:30:05 14.2 31228 ABCD IS Equity 1 139 192 23 
2016-06-01 09:30:07 14.2 31128 ABCD IS Equity 0  0  0 0 
2016-06-01 09:30:09 14.2 36128 ABCD IS Equity 1 138 192 23 
2016-06-01 09:30:19 14.2 36028 ABCD IS Equity 0  0  0 0 
2016-06-01 09:30:21 14.2 27028 ABCD IS Equity 1 112 190 23 
2016-06-01 09:30:37 14.2 26528 ABCD IS Equity 0  0  0 0 

VarA имеет типа POSIXct, VarD имеет типа chr и rests имеют типа num.

VarE - моя зависимая переменная. VarC, VarB, VarG, VarH and VarI - мои объясняющие переменные. Общее количество строк в datset равно 7.4 million. Я хочу запустить логистическую регрессию. Я попробовал bigglm от biglm с помощью binomial family. Но это failing to converge. В связи с этим я не получаю правильных значений отклонения. Поэтому у меня возникают проблемы с вычислением McFadden's R-Sqr значение для того же самого. Можете ли вы предложить альтернативный пакет/способ?

Заранее спасибо.

+0

Downvote ?? Могу я узнать почему?? Если возможно, объясните мне это, чтобы я мог быть осторожен в следующий раз. – Zico

ответ

0

Пакет sgd позволит вам обрабатывать образец данных по образцу методом стохастического градиентного спуска.

+0

Спасибо, я попробовал. Хотя он успешно сходится, но он дает очень ограниченную информацию. Можете ли вы поделиться некоторой информацией о вычислении Pseudo R-Sqr из этой только информации. Я мог видеть только эту информацию: модель, коэффициенты, конвергированные, оценки, pos, times, model.out. – Zico

 Смежные вопросы

  • Нет связанных вопросов^_^