2013-03-12 6 views
0

Я использую пакет gbm в R для двоичной классификации. Я использую функцию экспоненциального убывания adaboost для алгоритма. У меня есть два вопроса:R gbm package: Ошибка обучения и функция экспоненциальной потери Adaboost

  1. Если я хочу увидеть ошибку обучения, должен ли я просто посмотреть на это? (Предположим, что моя модель объекта называется нужным, и я использовал 3-кратное CV.)

    best.iter <- gbm.perf(fit,method="cv")

    fit$train.error[best.iter]

  2. Если я хочу сделать прогноз на моем тренировочном наборе данных, скажем, «поезд», с удаленная переменная, по этой строке кода: pred <- predict(object=fit,newdata=train,n.trees=best.iter). Это дает мне только экспоненциальные значения потерь adaboost. Как я мог преобразовать это обратно в вероятность двоичного класса? Я попробовал plogis и log. Результаты просто не имеют смысла. Например, plogis дал мне 0.99 *** для всего, log дал мне интервал [0,52,0,56]. Какую трансформацию я должен делать?

FYI, я вырос на 100 деревьев, и процесс установки кажется ОК. Например,

> fit$oobag.improve 
[1] 0.1431295103 0.1093538334 0.0852480128 0.0678520088 0.0549712390 0.0452351232 0.0378058484 0.0319409903 
[9] 0.0275396129 0.0237185758 0.0208696658 0.0182786535 0.0163750200 0.0146381260 0.0132728128 0.0119435448 
[17] 0.0108959138 0.0099211566 0.0091093166 0.0084316036 0.0078037047 0.0071945142 0.0066821670 0.0061718044 
[25] 0.0058103999 0.0054534710 0.0051276913 0.0047975274 0.0044901763 0.0042387273 0.0039702177 0.0037345627 
[33] 0.0035337545 0.0033370776 0.0031656407 0.0029688111 0.0028016085 0.0026640768 0.0025268873 0.0023897908 
[41] 0.0022594735 0.0021612521 0.0020255227 0.0019376223 0.0018393318 0.0017481065 0.0016463413 0.0015561673 
[49] 0.0014813435 0.0014237926 0.0013459092 0.0012719409 0.0012116881 0.0011572038 0.0010948941 0.0010420570 
[57] 0.0009843288 0.0009398356 0.0008938670 0.0008542828 0.0008063698 0.0007637763 0.0007325414 0.0006917561 
[65] 0.0006582027 0.0006313925 0.0005979843 0.0005645791 0.0005410957 0.0005159002 0.0004869797 0.0004643209 
[73] 0.0004464032 0.0004213901 0.0004010297 0.0003815199 0.0003623747 0.0003445184 0.0003269569 0.0003105762 
[81] 0.0002960856 0.0002802715 0.0002679399 0.0002541207 0.0002425242 0.0002294759 0.0002200414 0.0002093278 
[89] 0.0001974315 0.0001893624 0.0001788743 0.0001709422 0.0001624860 0.0001538988 0.0001479532 0.0001403145 
[97] 0.0001338089 0.0001256208 0.0001206701 0.0001142448 

Спасибо!

ответ

0

1.Первый вопрос: вы правы, по размеру $ train.error вы можете проверить ошибку обучения. fit $ train.error [best.iter] - проверить ошибку обучения выбранной лучшей модели. Будьте осторожны, установите $ train.error [best.iter] не самая маленькая ошибка обучения, потому что лучшая модель выбрана cv.test.error.

2.Adaboost - это особый случай, когда модель ансамбля выбирает экспоненциальную функцию потерь. Чтобы преобразовать его обратно в функцию потери другого типа, вам сначала нужно знать, как были рассчитаны ошибки adaboos.

для у задачи {-1,1} классификации: экспоненциальной потери L=exp(-y*f(x))

, где F (X) является результатом генерируется хорошо подготовленных модели AdaBoost. решение класса должно быть принято знаком f (x), если f (x)> 0 предсказать y = 1, в противном случае y = -1. Тогда вы могли видеть все экспоненциальные потери < 1 были правильно классифицированы, потери < 1 были неправильно классифицированы. Теперь легко преобразовать в бинарную скорость разметки.

Обратите внимание, что не беспокойтесь, если вы видите функцию потерь для всех данных поезда < 1, это потому, что adaboost оптимизирует маржу, а не уменьшает скорость ошибочной классификации.

Надеюсь, это может вам помочь!

+0

Чтобы уточнить: L> 1 означает классифицировать, а L <1 следует неправильно классифицировать? Вы ввели «<» в обоих случаях. – Boxuan