Регуляция на выборке и полный набор данных для машинного обучения

Я недавно просмотрел видео, объясняющее, что для Deep Learning, если вы добавляете больше данных, вам не нужна такая регуляризация, какая из них имеет смысл.Регуляция на выборке и полный набор данных для машинного обучения

Говоря это, выполняется ли это утверждение для «нормальных» алгоритмов машинного обучения, таких как Random Forest, например? И если это так, при поиске наилучших гиперпараметров для алгоритма, теоретически вы должны иметь в качестве входного набора данных (разумеется, что дальше делится на перекрестные проверки и т. Д.) Столько данных, сколько у вас есть, а не только образец Это. Это, конечно же, означает более длительное время тренировки, так как для каждой комбинации гиперпарамов у вас есть X кросс-валидации, которые необходимо обучить и так далее.

В целом, справедливо ли считать, что параметры, найденные для образца приличного размера вашего набора данных, являются «лучшими» для использования всего набора данных или не так ли?

источник

2017-02-01 gliga bogdan

Говоря с точки зрения статистиков: это действительно зависит от качества вашей оценки. Если это несмещенная и низкая дисперсия, то образец будет в порядке. Если дисперсия высока, вы захотите использовать все данные, которые вы можете использовать.

источник

2017-02-01 15:41:54

Регуляция на выборке и полный набор данных для машинного обучения

ответ

Смежные вопросы