2016-12-18 9 views
0

Я пытаюсь выполнить логистическую регрессию в питоне, используя следующий код -логистической регрессии в питоне с помощью логита() и припадок()

from patsy import dmatrices 
import numpy as np 
import pandas as pd 
import statsmodels.api as sm 

df=pd.read_csv('C:/Users/Documents/titanic.csv') 
df=df.drop(['ticket','cabin','name','parch','sibsp','fare'],axis=1) #remove columns from table 
df=df.dropna() #dropping null values 

formula = 'survival ~ C(pclass) + C(sex) + age' 
df_train = df.iloc[ 0: 6, : ] 
df_test = df.iloc[ 6: , : ] 

#spliting data into dependent and independent variables 
y_train,x_train = dmatrices(formula, data=df_train,return_type='dataframe') 
y_test,x_test = dmatrices(formula, data=df_test,return_type='dataframe') 

#instantiate the model 
model = sm.Logit(y_train,x_train) 
res=model.fit() 
res.summary() 

Я получаю сообщение об ошибке на этой линии-

--->res=model.fit() 

У меня нет отсутствующих значений в наборе данных. Однако мой набор данных очень мал, всего 10 записей. Я не уверен, что здесь происходит, и как я могу это исправить? Я запускаю программу в ноутбуке Jupyter. Полное сообщение об ошибке приведено ниже:

--------------------------------------------------------------------------- 
PerfectSeparationError     Traceback (most recent call last) 
<ipython-input-37-c6a47ec170d5> in <module>() 
    19 y_test,x_test = dmatrices(formula, data=df_test,return_type='dataframe') 
    20 model = sm.Logit(y_train,x_train) 
---> 21 res=model.fit() 
    22 res.summary() 

C:\Program Files\Anaconda3\lib\site-packages\statsmodels\discrete\discrete_model.py in fit(self, start_params, method, maxiter, full_output, disp, callback, **kwargs) 
    1374   bnryfit = super(Logit, self).fit(start_params=start_params, 
    1375     method=method, maxiter=maxiter, full_output=full_output, 
-> 1376     disp=disp, callback=callback, **kwargs) 
    1377 
    1378   discretefit = LogitResults(self, bnryfit) 

C:\Program Files\Anaconda3\lib\site-packages\statsmodels\discrete\discrete_model.py in fit(self, start_params, method, maxiter, full_output, disp, callback, **kwargs) 
    201   mlefit = super(DiscreteModel, self).fit(start_params=start_params, 
    202     method=method, maxiter=maxiter, full_output=full_output, 
--> 203     disp=disp, callback=callback, **kwargs) 
    204 
    205   return mlefit # up to subclasses to wrap results 

C:\Program Files\Anaconda3\lib\site-packages\statsmodels\base\model.py in fit(self, start_params, method, maxiter, full_output, disp, fargs, callback, retall, skip_hessian, **kwargs) 
    423              callback=callback, 
    424              retall=retall, 
--> 425              full_output=full_output) 
    426 
    427   #NOTE: this is for fit_regularized and should be generalized 

C:\Program Files\Anaconda3\lib\site-packages\statsmodels\base\optimizer.py in _fit(self, objective, gradient, start_params, fargs, kwargs, hessian, method, maxiter, full_output, disp, callback, retall) 
    182        disp=disp, maxiter=maxiter, callback=callback, 
    183        retall=retall, full_output=full_output, 
--> 184        hess=hessian) 
    185 
    186   # this is stupid TODO: just change this to something sane 

C:\Program Files\Anaconda3\lib\site-packages\statsmodels\base\optimizer.py in _fit_newton(f, score, start_params, fargs, kwargs, disp, maxiter, callback, retall, full_output, hess, ridge_factor) 
    246    history.append(newparams) 
    247   if callback is not None: 
--> 248    callback(newparams) 
    249   iterations += 1 
    250  fval = f(newparams, *fargs) # this is the negative likelihood 

C:\Program Files\Anaconda3\lib\site-packages\statsmodels\discrete\discrete_model.py in _check_perfect_pred(self, params, *args) 
    184     np.allclose(fittedvalues - endog, 0)): 
    185    msg = "Perfect separation detected, results not available" 
--> 186    raise PerfectSeparationError(msg) 
    187 
    188  def fit(self, start_params=None, method='newton', maxiter=35, 

PerfectSeparationError: Perfect separation detected, results not available 

ответ

2

У вас идеальное разделение, что означает, что ваши данные отлично отделяются гиперплоскостью. Когда это произойдет, оценка максимального правдоподобия для ваших параметров бесконечна, следовательно, ваша ошибка.

Пример идеального разделения:

Gender Outcome 
male  1 
male  1 
male  0 
female 0 
female 0 

В этом случае, если я получаю женское наблюдение, я знаю, с 100% уверенностью, что результат будет 0. То есть, мои данные полностью разделяют результаты. Нет никакой неопределенности, и численный расчет для нахождения моих коэффициентов не сходится.

Согласно вашей ошибке, что-то подобное происходит с вами. Имея всего 10 записей, вы можете себе представить, как это может произойти, например, имея 1000 записей или что-то в этом роде. Так что получите больше данных :)

+0

дополнительно: AFAICS, 'model.raise_on_perfect_prediction = False' перед вызовом model.fit отключит исключительное исключение разделения. Однако, как объяснено, параметры не определены или теоретически будут бесконечными, но в результате оцененные параметры будут зависеть от критериев остановки оптимизации. – user333700