Недавно я получил немного запутался с этим тоже, но читать главу 4 в прикладном прогнозном моделировании Макса Кун помог мне понять разницу.
Если вы используете randomForest в R, вы вырастите несколько деревьев решений путем выборки N случаев с заменой (N - количество случаев в наборе обучения). Затем вы выбираете m переменных на каждом узле, где m меньше числа предикторов. Затем каждое дерево вырастает полностью, а конечные узлы назначаются классу на основе режима случаев в этом узле. Новые случаи классифицируются путем отправки их по всем деревьям и затем голосования; побеждает большинство голосов.
ключевые моменты, чтобы отметить здесь:
как деревья растут - отбор проб с помощью замены (бутстраповской). Это означает, что некоторые случаи будут представлены много раз в вашей начальной загрузке, а другие могут вообще не отображаться. Образец бутстрапа будет иметь тот же размер, что и ваш учебный набор данных.
Случаи, которые не выбраны для построения деревьев, называются образцами OOB - оценка ошибки OOB вычисляется путем классификации случаев, которые не выбраны при создании дерева. Около 63% точек данных в бутстрап-образце представлены хотя бы один раз.
Если вы используете каретку в R, то, как правило, используют каретку :: поезд (....) и указать способ, как «ВЧ» и trControl = «repeatedcv». Вы можете изменить trControl на «oob», если хотите выйти из сумки.То, как это работает, выглядит следующим образом (я собираюсь использовать простой пример 10-кратного CV, который повторяется 5 раз): набор учебных материалов разбит на 10 раз примерно равного размера, количество деревьев будет построено с использованием только 9 образцы - таким образом, опуская 1-ю складку (которая удерживается). Проведенный образец прогнозируется путем запуска случаев через деревья и используется для оценки показателей эффективности. Первое подмножество возвращается в тренировочный набор, и процедура повторяется с выделением второго подмножества и т. Д. Процесс повторяется 10 раз. Вся эта процедура может повторяться несколько раз (в моем примере я делаю это 5 раз); для каждого из 5 прогонов учебный набор данных можно разбить на 10 немного разных складок. Следует отметить, что для расчета эффективности модели используются 50 различных пробы.
ключевых моменты, чтобы отметить следующие:
это включает в себя отбор без замены - вы разделяете обучающие данные и построение модели на 9 образцов и предсказать протянутый образец (оставшиеся 1 образец 10) и повторите этот процесс, как указано выше
модель построена с использованием набора данных, который меньше, чем набор учебных материалов; это отличается от описанного выше метода бутстрапа
Вы используете 2 разных метода повторной дискретизации, которые будут давать разные результаты, поэтому они не сопоставимы. К-кратное повторение cv имеет тенденцию к низкому смещению (для k больших); где k равно 2 или 3, смещение является высоким и сопоставимо с методом бутстрапа. K fold cv имеет тенденцию иметь высокую дисперсию, хотя ...