2016-10-11 6 views
0

Я пытаюсь понять, как работает штабелирование, но пока я не уверен, правильно ли я это понимаю. Так вот что я понимаю, до сих пор:Stacking, Stacked generalization Algorithm

  1. мы тренируемся каждый из к базовой обучающегося (уровень-0) с полным набором данных.

  2. мы даем каждому из k базовый ученик прогнозировать весь набор данных.

  3. мы создаем новый набор данных из всех прогнозов k базовый ученик. Новый набор данных выглядит как наш исходный набор данных + прогнозы каждого базового ученика.

  4. этот набор данных используется для обучения метаученика (уровень 1).

Мои вопросы:

  1. ли это до сих пор правильно?
  2. Я часто читал, что перекрестная проверка как-то используется для укладки, но я не мог понять, как она используется? Или это даже неотъемлемая часть, которую мне не хватает?

Большое спасибо

ответ

3

Ваше понимание в основном правильно! On

Новый набор данных выглядит как наш исходный набор данных + предсказания каждого базового ученика.

Один может использовать оригинальные черты + предсказания каждого базовый обучающийся, но когда люди говорят о укладках они, как правило, используя только предсказание каждого базовый обучающегося.

Я часто читал, что перекрестная проверка как-то используется для укладки, но я не мог понять, как она используется? Или это даже неотъемлемая часть, которую мне не хватает?

Да, перекрестная проверка часто используется с укладкой. Что происходит, когда вы делаете это, как вы описали, метамодель (уровень 1, как вы ее называете) может переместиться из предсказаний, сделанных базовыми моделями, поскольку каждое предсказание выполняется, увидев весь набор данных.

Итак, что вы делаете, это перекрестная проверка и разбиение данных на k-folds. Вы используете предсказания на k-й протянутой складке (циклически через все k из них), чтобы получить (надеюсь) несмещенную оценку того, что модель будет прогнозировать по невидимым данным. Затем вы подходите к метамодели к тем (там нет перекрестной проверки).