2015-02-09 1 views
5

В ансамблевых методах документация Scikit-Learn http://scikit-learn.org/stable/modules/ensemble.html#id6 в разделе 1.9.2.3. Параметры мы читаем:Документация Unconclusive RandomForest в ScikitLearn

(...) Наилучшие результаты также обычно достигается при настройке не max_depth = None в сочетании с min_samples_split = 1 (то есть, когда полностью развивается деревья). Имейте в виду, что эти значения обычно не оптимальны. Наилучшие значения параметров всегда должны быть перекрестно проверены.

В чем разница между лучшими результатами и оптимальными? Я считал, что наилучшие результаты автора означают лучшие кросс-валидированные результаты прогнозирования.

Кроме того, обратите внимание, что образцы начальной загрузки по умолчанию используются в случайных лесах (самозагрузки = True), а стратегия по умолчанию использовать исходный набор данных для создания экстра-деревьев (бутстраповских = False).

Я понимаю это следующим образом: самонастройки используются по умолчанию в реализации Scikit-Изучают, но стратегия по умолчанию является не использования самонастройки. Если да, то каков источник стратегии по умолчанию и почему она не является дефолтом в реализации?

ответ

3

Я согласен, что первая цитата противоречит друг другу. Возможно, было бы лучше:

Наилучшие результаты также достигаются с полностью развитыми деревьями (max_depth = None и min_samples_split = 1). Имейте в виду, что эти ценности обычно не гарантируются как оптимальные. Наилучшие значения параметров всегда должны быть перекрестно проверены.

Для второй цитате, он сравнивает значение по умолчанию параметра bootstrap для случайных лесов (RandomForestClassifier и RandomForestRegression) чрезвычайно рандомизированные деревья, реализованные в классах ExtraTreesClassifier и ExtraTreesRegressor. Далее может быть более явным:

Кроме того, обратите внимание, что образцы начальной загрузки по умолчанию используются в случайных лесах (самозагрузки = True), а на строительство дополнительных деревьев стратегии по умолчанию является использование исходного набора данных (начальной загрузки = Ложь).

Пожалуйста, не стесняйтесь представить PR с исправлением, если вы найдете эти формулировки понятнее.

+0

Спасибо, это дает понять. Пожалуйста, дайте мне знать, что такое PR, тогда я это сделаю :) –

+0

См. Https://github.com/scikit-learn/scikit-learn/pull/4233 –

+0

PR означает «запрос на тяну». Это стандартный способ внести свой вклад в проект с открытым исходным кодом, размещенный на github.com – ogrisel

 Смежные вопросы

  • Нет связанных вопросов^_^