2

Я хотел сравнить adaboost и деревья решений. В качестве доказательства принципа я установил число оценок в adaboost в 1 с классификатором дерева решений по умолчанию, ожидая того же результата, что и простое дерево решений.Почему adaboost с 1 оценкой быстрее, чем простое дерево решений?

У меня точно такая же точность при прогнозировании тестовых меток. Однако время монтажа намного ниже для adaboost, а время тестирования немного выше. Adaboost, похоже, использует те же настройки по умолчанию, что и DecisionTreeClassifier, в противном случае точность не будет одинаковой.

Может ли это объяснить это?

Код

from sklearn.ensemble import AdaBoostClassifier 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.metrics import accuracy_score 

print("creating classifier") 
clf = AdaBoostClassifier(n_estimators = 1) 
clf2 = DecisionTreeClassifier() 

print("starting to fit") 

time0 = time() 
clf.fit(features_train,labels_train) #fit adaboost 
fitting_time = time() - time0 
print("time for fitting adaboost was", fitting_time) 

time0 = time() 
clf2.fit(features_train,labels_train) #fit dtree 
fitting_time = time() - time0 
print("time for fitting dtree was", fitting_time) 

time1 = time() 
pred = clf.predict(features_test) #test adaboost 
test_time = time() - time1 
print("time for testing adaboost was", test_time) 

time1 = time() 
pred = clf2.predict(features_test) #test dtree 
test_time = time() - time1 
print("time for testing dtree was", test_time) 

accuracy_ada = accuracy_score(pred, labels_test) #acc ada 
print("accuracy for adaboost is", accuracy_ada) 

accuracy_dt = accuracy_score(pred, labels_test) #acc dtree 
print("accuracy for dtree is", accuracy_dt) 

Выход

('time for fitting adaboost was', 3.8290421962738037) 
('time for fitting dtree was', 85.19442415237427) 
('time for testing adaboost was', 0.1834099292755127) 
('time for testing dtree was', 0.056527137756347656) 
('accuracy for adaboost is', 0.99089874857792948) 
('accuracy for dtree is', 0.99089874857792948) 
+1

Каково измерение 'features_train'? когда я повторяю свой эксперимент со 100 трехмерными образцами, дерево решений примерно в 10 раз быстрее, чем Adaboost. –

+1

Также попробуйте использовать профилировщик. Магический «% prun» IPython - хороший вариант. –

+0

Features_train имеет 16000 функций из 3785 образцов. Меня интересует концептуальная разница между этими двумя. Каким образом алгоритм использует разные? Я бы ожидал, что AdaBoostClassifier с 1 оценщиком сделает именно то, что делает DecisionTreeClassifier. – galliwuzz

ответ

2

Я попытался повторить свой эксперимент в IPython, но я не вижу такой большой разницы:

from sklearn.ensemble import AdaBoostClassifier 
from sklearn.tree import DecisionTreeClassifier 
import numpy as np 
x = np.random.randn(3785,16000) 
y = (x[:,0]>0.).astype(np.float)  
clf = AdaBoostClassifier(n_estimators = 1) 
clf2 = DecisionTreeClassifier() 
%timeit clf.fit(x,y) 
1 loop, best of 3: 5.56 s per loop 
%timeit clf2.fit(x,y) 
1 loop, best of 3: 5.51 s per loop 

Попробуйте использовать про или сначала повторите эксперимент.

 Смежные вопросы

  • Нет связанных вопросов^_^