Я использую набор данных Titanic
от Kaggle и хочу изучить простую модель логистической регрессии.не удалось применить изученную модель для проверки данных в R
я прочитал в данных поездов и испытаний, и оба train$Survived
, train$Sex
, test$Survived
и test$Sex
являются факторами.
Я хотел бы выполнить очень простую логистическую регрессию, поскольку секс является единственной независимой переменной.
fit <- glm(formula = Survived ~ Sex, family = binomial)
кажется, все в порядке со мной:
> fit
Call: glm(formula = Survived ~ Sex, family = binomial)
Coefficients:
(Intercept) Sexmale
1.057 -2.514
Degrees of Freedom: 890 Total (i.e. Null); 889 Residual
Null Deviance: 1187
Residual Deviance: 917.8 AIC: 921.8
Проблема, я не могу применить это узнал модель для данных испытаний. Когда я делаю следующее:
predict(fit, train$Sex)
Я получаю вектор с 891 значениями которых является количество обучающих примеров в обучающем наборе.
Кажется, я не могу найти информацию о том, как это сделать правильно.
Любая помощь была бы принята с благодарностью!
В коде 'fit', где находятся данные?' Pred (fit, newdata = test) 'будет выполнять эту работу. – Metrics
Спасибо, это сработало! Это не упоминается в документации для прогнозирования и только в предсказуемом прогнозе. ... Предсказание, похоже, выводит поплавки, хотя и не «метки», которые изначально использовались для изучения модели. Есть ли способ исправить это? (получается мой поезд $ Выжил тип целого числа ... позвольте мне попробовать с факторами ...) Не повезло, все еще плавает как результат ... – dreamwalker
Да, вы должны использовать 'pred.glm' для этого. Я пропустил '.glm'. Простите за это. – Metrics