2016-06-24 5 views
2

Я бегу кросс проверки с xgboost в R.Понимание ошибки выполнения перекрестной проверки с xgboost в R

library(xgboost) 

data(agaricus.train, package='xgboost') 
data(agaricus.test, package='xgboost') 
train <- agaricus.train 
test <- agaricus.test 

cv.res <- xgb.cv(data = train$data, label = train$label, nfold = 5, 
       nrounds = 2, objective = "binary:logistic") 

Выход приведен ниже

[0] train-error:0.000921+0.000343 test-error:0.001228+0.000687 
[1] train-error:0.001075+0.000172 test-error:0.001228+0.000687 

я предполагаю ошибку это просто среднее значение ошибки между всеми k-кратностями при выполнении регрессии и режимом при выполнении классификации, верно ли это? И что такое второй термин после знака «плюс»?

В регрессии при вычислении среднего значения между k-образными складками выполняется ли это с учетом равного веса для каждой складки или есть случаи, когда это делается, придавая больший вес конкретным складкам?

ответ

1

1. Я предполагая, что ошибка просто средней ошибки между всеми к- складками при выполнении регрессии и режиме при выполнении классификации

Это ошибка из затяжка crossfold (см ниже цитаты что относится и к вашему третьему вопросу). По умолчанию это двоичная ошибка классификации этой целевой функции.

Собственно, это зависит от вас, какой показатель вы хотите увидеть здесь. Вы можете указать его с опцией metrics. Ваш выбор:

  • ошибка двоичной классификации частоты ошибок
  • RMSE Внедренный среднеквадратичная ошибка
  • logloss отрицательная логарифмическая функция правдоподобия
  • АУК Площадь под кривой
  • merror Точная ошибка совпадения, используется для оценки классификации по нескольким классам

Когда это не указано, метрика оценки выбирается в соответствии с целевой функцией.

2. И что такое второй термин после знака плюс?

Это стандартное отклонение оценки погрешности. Он упоминает об этом в документации. Вы можете включить или выключить это с помощью showsd.

3. В регрессии при вычислении среднего значения между k-образными складками это делается с учетом равного веса для каждой складки или есть случаи, когда это делается, придавая больший вес конкретным складкам?

Согласно документации:

Из nfold подвыборках, один подвыборки сохраняется в качестве данных проверки для проверки модели, а остальные nfold - 1 подвыборки используются в качестве обучающих данных.

+0

Спасибо за ваш ответ, это очень ясно. Я проверил термин после знака плюс, и это действительно «стандартное отклонение». –

+0

@ThiagoBalbo Вы очень желанны. Да, вы правы, это стандартное отклонение. Я обновил свой ответ пару минут назад, чтобы добавить это. Вы можете включить или выключить его с помощью 'showd'. –