Хотя это, безусловно, возможно для деревьев принятия решений, и AN6U5 отлично справлялся с описанием того, как случайные леса используют пучки маленьких деревьев, которые были обучены с использованием случайных подмножеств данных и случайных подмножеств функций. Таким образом, каждое дерево является оптимальным только в том, что ограниченная настройка функций и данных. Поскольку, как правило, 100 или даже 1000 из них, выяснение контекста путем изучения рандомизированных данных будет неблагодарной задачей. Я не думаю, что кто-то это делает.
Тем не менее, существует рейтинг важности для функций, созданных для Random Forests, и почти все реализации будут выводить их по запросу. Они оказываются чрезвычайно полезными.
Двумя наиболее важными из них являются MDI (Mean Decrease прим.) И MDA (Mean Decrease Accuracy). Они подробно описаны в главе 6 этой отличной работы: http://arxiv.org/pdf/1407.7502v3.pdf
Похож на ** переработку ** для меня. Может быть, было бы более понятно, если бы он не переусердствовал? –
Это точка сюжета ... максимальная глубина 5 явно переоборудована, но максимальная глубина 2 также показана, например. эти типы сюжетов помогают вам выбрать модель, но вы должны увидеть, какая глубина ведет к переобучению, а какие глубины ведут к недоустройству, чтобы выбрать правильную глубину. – AN6U5
Спасибо за ссылки. Это отличная отправная точка! Кроме того, я ищу метод для создания бизнес-приложения ** над правилами из деревьев решений. Что-то вроде «Кредитный подсчет» (см .: [Руководство по подсчету кредитов в R] (http://cran.r-project.org/doc/contrib/Sharma-CreditScoring.pdf)) – lomaga