2016-11-12 5 views
5

Мне интересно, есть ли реализация сбалансированного случайного леса (BRF) в последних версиях пакета scikit-learn. BRF используется в случае несбалансированных данных. Он работает как обычный RF, но для каждой итерации начальной загрузки он уравновешивает класс распространенности по недосэмплированию. Например, учитывая два класса N0 = 100 и N1 = 30 экземпляров, при каждой случайной выборке он рисует (с заменой) 30 экземпляров из первого класса и того же количества экземпляров из второго класса, то есть он обучает дерево на сбалансированный набор данных. Для получения дополнительной информации please refer to this paper.Сбалансированный случайный лес в scikit-learn (python)

RandomForestClassifier() имеет параметр 'class_weight =', который может быть установлен на «сбалансированный», но я не уверен, что он связан с понижающей дискретизацией загрузочных образцов.

+0

Вы когда-нибудь находили решение? – oliversm

+0

@oliversm, к сожалению, нет. Я оставил эту проблему. Вероятно, мы должны открыть вопрос на форуме по изучению scikit и предложить решение. Это было бы прекрасно. –

+0

Метод, предложенный Бриемэном, должен быть довольно прост в применении, используя уже предлагаемый Scikit, это позор, хотя, похоже, это было упущено. – oliversm

ответ

4

Я знаю, что это на 10 месяцев позже, но я думаю, что вы ищете BalancedBaggingClassifier от imblearn.

imblearn.ensemble.BalancedBaggingClassifier(base_estimator=None, 
n_estimators=10, max_samples=1.0, max_features=1.0, bootstrap=True, 
bootstrap_features=False, oob_score=False, warm_start=False, ratio='auto', 
replacement=False, n_jobs=1, random_state=None, verbose=0) 

Эффективно, что это позволит вам сделать это последовательно undersample классе большинства при монтаже блок оценки сверху. Вы можете использовать случайный лес или любую базовую оценку от scikit-learn. Вот example.

+1

спасибо! Я немного поиграл с этим пакетом и нашел это довольно интересным. Я продолжу изучение вашего примера. –

+0

@ArnoldKlein да, это очень полезно, но документация по-прежнему нуждается в улучшении. – mamafoku

 Смежные вопросы

  • Нет связанных вопросов^_^