Мне интересно, есть ли реализация сбалансированного случайного леса (BRF) в последних версиях пакета scikit-learn. BRF используется в случае несбалансированных данных. Он работает как обычный RF, но для каждой итерации начальной загрузки он уравновешивает класс распространенности по недосэмплированию. Например, учитывая два класса N0 = 100 и N1 = 30 экземпляров, при каждой случайной выборке он рисует (с заменой) 30 экземпляров из первого класса и того же количества экземпляров из второго класса, то есть он обучает дерево на сбалансированный набор данных. Для получения дополнительной информации please refer to this paper.Сбалансированный случайный лес в scikit-learn (python)
RandomForestClassifier() имеет параметр 'class_weight =', который может быть установлен на «сбалансированный», но я не уверен, что он связан с понижающей дискретизацией загрузочных образцов.
Вы когда-нибудь находили решение? – oliversm
@oliversm, к сожалению, нет. Я оставил эту проблему. Вероятно, мы должны открыть вопрос на форуме по изучению scikit и предложить решение. Это было бы прекрасно. –
Метод, предложенный Бриемэном, должен быть довольно прост в применении, используя уже предлагаемый Scikit, это позор, хотя, похоже, это было упущено. – oliversm