Предположим, вы хотите оценить простую модель glm для прогнозирования серии экономических данных. Рассмотрим следующий код:Модельная интерпретация с использованием метода временных меток в CARET
library(caret)
library(ggplot2)
data(economics)
h <- 7
myTimeControl <- trainControl(method = "timeslice",
initialWindow = 24*h,
horizon = 12,
fixedWindow = TRUE)
fit.glm <- train(unemploy ~ pce + pop + psavert,
data = economics,
method = "glm",
preProc = c("center", "scale","BoxCox"),
trControl = myTimeControl)
Предположим, что ковариат, используемые в формуле поезда предсказания значений, полученных некоторой другой модели. Эта простая модель дает следующие результаты:
Generalized Linear Model
574 samples
3 predictor
Pre-processing: centered (3), scaled (3), Box-Cox transformation (3)
Resampling: Rolling Forecasting Origin Resampling (12 held-out with a fixed
window)
Summary of sample sizes: 168, 168, 168, 168, 168, 168, ...
Resampling results:
RMSE Rsquared
1446.335 0.2958317
Помимо плохих результатов (это только пример). Интересно, если это правильно:
- рассмотреть вышеуказанные результаты, полученные результаты, по всему набору данных, с помощью ГЖСА обучаемых, используя только 24 * H = 24 * 7 образцов и переучиваться после каждого горизонт = 12 образцов
- Как оценивать RMSE как горизонт растет от 1 до 12 (как сообщается здесь http://robjhyndman.com/hyndsight/tscvexample/)?
, если я покажу fit.glm резюме я получаю:
Call:
NULL
Deviance Residuals:
Min 1Q Median 3Q Max
-5090.0 -1025.5 -208.1 833.4 4948.4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7771.56 64.93 119.688 < 2e-16 ***
pce 5750.27 1153.03 4.987 8.15e-07 ***
pop -1483.01 1117.06 -1.328 0.185
psavert 2932.38 144.56 20.286 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 2420081)
Null deviance: 3999514594 on 573 degrees of freedom
Residual deviance: 1379446256 on 570 degrees of freedom
AIC: 10072
Number of Fisher Scoring iterations: 2
параметров показали, относятся к последнему обученному GLM или "средний" paramters? Надеюсь, я был достаточно ясен.