Я недавно просмотрел видео, объясняющее, что для Deep Learning, если вы добавляете больше данных, вам не нужна такая регуляризация, какая из них имеет смысл.Регуляция на выборке и полный набор данных для машинного обучения
Говоря это, выполняется ли это утверждение для «нормальных» алгоритмов машинного обучения, таких как Random Forest, например? И если это так, при поиске наилучших гиперпараметров для алгоритма, теоретически вы должны иметь в качестве входного набора данных (разумеется, что дальше делится на перекрестные проверки и т. Д.) Столько данных, сколько у вас есть, а не только образец Это. Это, конечно же, означает более длительное время тренировки, так как для каждой комбинации гиперпарамов у вас есть X кросс-валидации, которые необходимо обучить и так далее.
В целом, справедливо ли считать, что параметры, найденные для образца приличного размера вашего набора данных, являются «лучшими» для использования всего набора данных или не так ли?