Добавление к вышеуказанным двум ответам, поскольку вы упомянули простое объяснение. Вот запись, которую я считаю самым простым способом объяснить случайные леса.
Предположим, вы очень нерешительны, поэтому всякий раз, когда вы хотите посмотреть фильм, вы спрашиваете своего друга Уиллоу, думает ли она, что вам это понравится. Чтобы ответить, Уиллоу сначала нужно выяснить, какие фильмы вам нравятся, поэтому вы даете ей кучу фильмов и расскажите ей, понравился ли вам каждый или нет (т. Е. Вы дадите ей обозначенный набор для обучения). Затем, когда вы спросите ее, думает ли она, что вам понравится фильм X или нет, она играет 20 вопросов, подобных игре с IMDB, задавая такие вопросы, как «Is X - романтический фильм?», «Звезда ли Джонни Деппа в X?» , и так далее. Сначала она задает более информативные вопросы (т. Е. Максимизирует информационный выигрыш по каждому вопросу) и дает ответ «да/нет» в конце.
Таким образом, Willow является деревом решений для ваших предпочтений в отношении фильма.
Но Уиллоу только человек, поэтому она не всегда очень хорошо обобщает ваши предпочтения (т. Е. Она наряды). Чтобы получить более точные рекомендации, вы хотите спросить кучу своих друзей и посмотреть фильм X, если большинство из них говорят, что они думают, что вам это понравится. То есть вместо того, чтобы спрашивать только Уиллоу, вы также хотите спросить у Вуди, Яблока и Картмана, и они проголосуют за то, понравится ли вам фильм (т. Е. Вы создадите классификатор ансамбля, иначе это лес в этом случае).
Теперь вы не хотите, чтобы каждый из ваших друзей делал то же самое и дал вам тот же ответ, поэтому сначала дайте каждому из них несколько разные данные. В конце концов, вы сами не совсем уверены в своих предпочтениях - вы сказали Уиллоу, что любите Титаника, но, возможно, вы были счастливы в тот день, потому что это был ваш день рождения, поэтому, возможно, некоторые из ваших друзей не должны использовать тот факт, что вам понравилось Титаник в своих рекомендациях. Или, может быть, вы сказали ей, что любили Золушку, но на самом деле вам действительно понравилось, поэтому некоторые из ваших друзей должны дать Золушке больше веса. Поэтому вместо того, чтобы давать своим друзьям те же данные, которые вы дали Уиллоу, вы даете им слегка возмущенные версии. Вы не изменяете свои решения о любви/ненависти, вы просто говорите, что любите/ненавидите некоторые фильмы немного больше или меньше (формально, вы даете каждому из ваших друзей загрузочную версию ваших исходных данных обучения). Например, в то время как вы сказали Уиллоу, что вам нравятся «Черный лебедь» и «Гарри Поттер» и «Не понравился Аватар», вы говорите Вуди, что вы так сильно любили «Черный лебедь», что вы смотрели его дважды, вы не любили Аватара и вообще не упоминали Гарри Поттера.
Используя этот ансамбль, вы надеетесь, что, хотя каждый из ваших друзей дает несколько своеобразные рекомендации (Уиллоу думает, что вам нравятся фильмы о вампирах больше, чем вы, Вуди думает, что вам нравятся фильмы Pixar, а Картман считает, что вы просто ненавидите все), ошибки устраняются в большинстве. Таким образом, ваши друзья теперь формируют мешковатый (загрузочный) совокупный лес ваших предпочтений в кино.
Однако по-прежнему существует одна проблема с вашими данными. В то время как вы любили как «Титаник», так и «Начало», это было не потому, что вам нравятся фильмы, которые снимают Леонардо Ди Каприо. Возможно, вам понравились оба фильма по другим причинам. Таким образом, вы не хотите, чтобы ваши друзья основывали свои рекомендации на том, находится ли Лео в кино или нет. Поэтому, когда каждый друг задает вопрос IMDB, допускается только случайное подмножество возможных вопросов (т. Е. Когда вы строите дерево решений, на каждом узле вы используете некоторую случайность при выборе атрибута для разделения, скажем, путем случайного выбора атрибут или путем выбора атрибута из произвольного подмножества). Это означает, что вашим друзьям не разрешается спрашивать, находится ли Леонардо Ди Каприо в фильме, когда захочет. Таким образом, если раньше вы вводили случайность на уровне данных, слегка возмущая ваши предпочтения в отношении фильма, теперь вы вводите случайность на уровне модели, заставляя ваших друзей задавать разные вопросы в разное время.
Итак, ваши друзья теперь образуют случайный лес.
https: //www.quora.com/Random-Forests/How-do-random-forest-work-in-laymans-terms – CoryKramer