2016-09-19 14 views
0

Предположим, вы хотите оценить простую модель glm для прогнозирования серии экономических данных. Рассмотрим следующий код:Модельная интерпретация с использованием метода временных меток в CARET

library(caret) 
library(ggplot2) 
data(economics) 
h <- 7 
myTimeControl <- trainControl(method = "timeslice", 
           initialWindow = 24*h, 
           horizon = 12, 
           fixedWindow = TRUE) 

fit.glm <- train(unemploy ~ pce + pop + psavert, 
        data = economics, 
        method = "glm", 
        preProc = c("center", "scale","BoxCox"), 
        trControl = myTimeControl) 

Предположим, что ковариат, используемые в формуле поезда предсказания значений, полученных некоторой другой модели. Эта простая модель дает следующие результаты:

Generalized Linear Model 

574 samples 
3 predictor 

Pre-processing: centered (3), scaled (3), Box-Cox transformation (3) 
Resampling: Rolling Forecasting Origin Resampling (12 held-out with a fixed 
window) 
Summary of sample sizes: 168, 168, 168, 168, 168, 168, ... 
Resampling results: 

RMSE  Rsquared 
1446.335 0.2958317 

Помимо плохих результатов (это только пример). Интересно, если это правильно:

  1. рассмотреть вышеуказанные результаты, полученные результаты, по всему набору данных, с помощью ГЖСА обучаемых, используя только 24 * H = 24 * 7 образцов и переучиваться после каждого горизонт = 12 образцов
  2. Как оценивать RMSE как горизонт растет от 1 до 12 (как сообщается здесь http://robjhyndman.com/hyndsight/tscvexample/)?

, если я покажу fit.glm резюме я получаю:

Call: 
NULL 

Deviance Residuals: 
    Min  1Q Median  3Q  Max 
-5090.0 -1025.5 -208.1 833.4 4948.4 

Coefficients: 
      Estimate Std. Error t value Pr(>|t|)  
(Intercept) 7771.56  64.93 119.688 < 2e-16 *** 
pce   5750.27 1153.03 4.987 8.15e-07 *** 
pop   -1483.01 1117.06 -1.328 0.185  
psavert  2932.38  144.56 20.286 < 2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for gaussian family taken to be 2420081) 

Null deviance: 3999514594 on 573 degrees of freedom 
Residual deviance: 1379446256 on 570 degrees of freedom 


AIC: 10072 

Number of Fisher Scoring iterations: 2 

параметров показали, относятся к последнему обученному GLM или "средний" paramters? Надеюсь, я был достаточно ясен.

ответ

0

Этот метод передискретизации подобен любым другим. RMSE оценивается с использованием разных подмножеств данных обучения. Обратите внимание, что в нем указано «Summary of sample sizes: 168, 168, 168, 168, 168, 168, ...». Окончательная модель использует все набора учебных данных.

Разница между результатами Роба и ними связана прежде всего с разницей между средней абсолютной ошибкой (MAE) и среднеквадратичной ошибкой (RMSE)