В ансамблевых методах документация Scikit-Learn http://scikit-learn.org/stable/modules/ensemble.html#id6 в разделе 1.9.2.3. Параметры мы читаем:Документация Unconclusive RandomForest в ScikitLearn
(...) Наилучшие результаты также обычно достигается при настройке не max_depth = None в сочетании с min_samples_split = 1 (то есть, когда полностью развивается деревья). Имейте в виду, что эти значения обычно не оптимальны. Наилучшие значения параметров всегда должны быть перекрестно проверены.
В чем разница между лучшими результатами и оптимальными? Я считал, что наилучшие результаты автора означают лучшие кросс-валидированные результаты прогнозирования.
Кроме того, обратите внимание, что образцы начальной загрузки по умолчанию используются в случайных лесах (самозагрузки = True), а стратегия по умолчанию использовать исходный набор данных для создания экстра-деревьев (бутстраповских = False).
Я понимаю это следующим образом: самонастройки используются по умолчанию в реализации Scikit-Изучают, но стратегия по умолчанию является не использования самонастройки. Если да, то каков источник стратегии по умолчанию и почему она не является дефолтом в реализации?
Спасибо, это дает понять. Пожалуйста, дайте мне знать, что такое PR, тогда я это сделаю :) –
См. Https://github.com/scikit-learn/scikit-learn/pull/4233 –
PR означает «запрос на тяну». Это стандартный способ внести свой вклад в проект с открытым исходным кодом, размещенный на github.com – ogrisel