В настоящее время я работаю над университетским проектом, чтобы предсказать количество клиентов, которые прибывают в магазин 24/7. Я использую данные из магазина, который содержит (помимо всего прочего) дату и время, в течение которых обслуживался каждый клиент в течение определенного года.Перекрестная проверка для множественной линейной регрессии в R
Я разделил этот набор данных на обучающий набор и набор кросс-валидации. Кроме того, я собрал и объединил учебный набор с данными о погоде того же года, чтобы узнать, например, если высокие температуры приводят к большему количеству клиентов.
Упрощенная версия объединенных данных выглядит следующим образом:
| ServedCustomers | Month | Day | Hour | Temperature (C°) | Rain(binary)
| --------------- | ----- | --- | ---- | ---------------- | ------------
| 1 | 12 | 31 | 12 | 9.2 | 0
| 0 | 12 | 31 | 13 | 9.8 | 1
| 2 | 12 | 31 | 14 | 10.1 | 0
За каждый час года, у меня есть несколько клиентов, которые подавались, а также соответствующие данные о погоде.
Я создал модель множественной линейной регрессии в R, чтобы предсказать количество клиентов с почти любой другой переменной в качестве предиктора. Используя команду summary()
, MSE, R^2 и другие статистические данные выглядят хорошо.
Теперь я хочу проверить, работает ли эта же модель с перекрестной проверкой. Для этого я объединился с одними и теми же данными о погоде, чтобы получить набор данных, который имеет ту же структуру, что и приведенная выше таблица, только с разным количеством клиентов.
Однако, вот где я сейчас застрял. Использование функции predict.lm()
с моделью и набором кросс-валидации действительно работает, но дает только прогнозируемые значения и небольшую дополнительную информацию.
Есть ли способ создать резюме того, насколько хорошо модель работает для другого набора данных? Как и в команде summary()
, но для набора данных, на котором основана не линейная модель?