2015-04-09 2 views
2

Я использовал пакет каретки для обучения случайному лесу, включая повторную перекрестную проверку. Я хотел бы знать, используется ли OOB, как в оригинальной RF от Breiman, или заменяется ли перекрестная проверка. Если он будет заменен, имею ли я те же преимущества, что и в Breiman 2001, как повышенная точность за счет уменьшения корреляции между входными данными? Когда OOB рисуется с заменой и CV рисуется без замены, обе процедуры сопоставимы? Какова оценка ошибки OOB (на основе CV)?caret: использование случайного леса и включение перекрестной проверки

Как растут деревья? Используется ли CART?

Как это моя первая нить, пожалуйста, дайте мне знать, если вам нужно больше деталей. Спасибо заранее.

ответ

4

Здесь есть много основных вопросов, и вам будет лучше служить, прочитав книгу по компьютерному обучению или интеллектуальному моделированию. Вероятно, почему вы не получили ответа.

Для caret вы также должны обратиться к package website, на который отвечают некоторые из этих вопросов.

Вот некоторые примечания:

  • CV и OOB оценка для РФ несколько отличаются. This post может помочь объяснить, как. Для этого приложения ставка OOB из случайного леса вычисляется во время сборки модели, тогда как CV использует образцы отсева, которые прогнозируются после вычисления случайной модели леса.
  • Исходная модель случайного леса (используется здесь) использует ненаправленные деревья CART. Опять же, это во многих учебниках и статьях.

Макс

1

Недавно я получил немного запутался с этим тоже, но читать главу 4 в прикладном прогнозном моделировании Макса Кун помог мне понять разницу.

Если вы используете randomForest в R, вы вырастите несколько деревьев решений путем выборки N случаев с заменой (N - количество случаев в наборе обучения). Затем вы выбираете m переменных на каждом узле, где m меньше числа предикторов. Затем каждое дерево вырастает полностью, а конечные узлы назначаются классу на основе режима случаев в этом узле. Новые случаи классифицируются путем отправки их по всем деревьям и затем голосования; побеждает большинство голосов.

ключевые моменты, чтобы отметить здесь:

  • как деревья растут - отбор проб с помощью замены (бутстраповской). Это означает, что некоторые случаи будут представлены много раз в вашей начальной загрузке, а другие могут вообще не отображаться. Образец бутстрапа будет иметь тот же размер, что и ваш учебный набор данных.

  • Случаи, которые не выбраны для построения деревьев, называются образцами OOB - оценка ошибки OOB вычисляется путем классификации случаев, которые не выбраны при создании дерева. Около 63% точек данных в бутстрап-образце представлены хотя бы один раз.

Если вы используете каретку в R, то, как правило, используют каретку :: поезд (....) и указать способ, как «ВЧ» и trControl = «repeatedcv». Вы можете изменить trControl на «oob», если хотите выйти из сумки.То, как это работает, выглядит следующим образом (я собираюсь использовать простой пример 10-кратного CV, который повторяется 5 раз): набор учебных материалов разбит на 10 раз примерно равного размера, количество деревьев будет построено с использованием только 9 образцы - таким образом, опуская 1-ю складку (которая удерживается). Проведенный образец прогнозируется путем запуска случаев через деревья и используется для оценки показателей эффективности. Первое подмножество возвращается в тренировочный набор, и процедура повторяется с выделением второго подмножества и т. Д. Процесс повторяется 10 раз. Вся эта процедура может повторяться несколько раз (в моем примере я делаю это 5 раз); для каждого из 5 прогонов учебный набор данных можно разбить на 10 немного разных складок. Следует отметить, что для расчета эффективности модели используются 50 различных пробы.

ключевых моменты, чтобы отметить следующие:

  • это включает в себя отбор без замены - вы разделяете обучающие данные и построение модели на 9 образцов и предсказать протянутый образец (оставшиеся 1 образец 10) и повторите этот процесс, как указано выше

  • модель построена с использованием набора данных, который меньше, чем набор учебных материалов; это отличается от описанного выше метода бутстрапа

Вы используете 2 разных метода повторной дискретизации, которые будут давать разные результаты, поэтому они не сопоставимы. К-кратное повторение cv имеет тенденцию к низкому смещению (для k больших); где k равно 2 или 3, смещение является высоким и сопоставимо с методом бутстрапа. K fold cv имеет тенденцию иметь высокую дисперсию, хотя ...