1

Я использую конвейер для выполнения выбора функции и оптимизации гиперпараметра с использованием RandomizedSearchCV. Вот краткое изложение кода:RandomizedSearchCV дает разные результаты с использованием того же random_state

from sklearn.cross_validation import train_test_split 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.feature_selection import SelectKBest 
from sklearn.grid_search import RandomizedSearchCV 
from sklearn.pipeline import make_pipeline 
from scipy.stats import randint as sp_randint 

rng = 44 

X_train, X_test, y_train, y_test = 
    train_test_split(data[features], data['target'], random_state=rng) 


clf = RandomForestClassifier(random_state=rng) 
kbest = SelectKBest() 
pipe = make_pipeline(kbest,clf) 

upLim = X_train.shape[1] 
param_dist = {'selectkbest__k':sp_randint(upLim/2,upLim+1), 
    'randomforestclassifier__n_estimators': sp_randint(5,150), 
    'randomforestclassifier__max_depth': [5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, None], 
    'randomforestclassifier__criterion': ["gini", "entropy"], 
    'randomforestclassifier__max_features': ['auto', 'sqrt', 'log2']} 
clf_opt = RandomizedSearchCV(pipe, param_distributions= param_dist, 
          scoring='roc_auc', n_jobs=1, cv=3, random_state=rng) 
clf_opt.fit(X_train,y_train) 
y_pred = clf_opt.predict(X_test) 

Я использую постоянный random_state для train_test_split, RandomForestClassifer и RandomizedSearchCV. Однако результат вышеуказанного кода несколько отличается, если я запускаю его несколько раз. Более конкретно, у меня есть несколько тестовых единиц в моем коде, и эти несколько разные результаты приводят к сбою тестовых блоков. Не следует ли получать те же результаты из-за использования того же random_state? Я что-то пропустил в своем коде, что создает случайность в части кода?

ответ

1

Я обычно отвечаю на свои вопросы! Я останусь здесь для других с похожим вопросом:

Чтобы убедиться, что я избегаю случайности, я определил случайное семя. Код выглядит следующим образом:

from sklearn.cross_validation import train_test_split 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.feature_selection import SelectKBest 
from sklearn.grid_search import RandomizedSearchCV 
from sklearn.pipeline import make_pipeline 
from scipy.stats import randint as sp_randint 

seed = np.random.seed(22) 

X_train, X_test, y_train, y_test = 
    train_test_split(data[features], data['target']) 


clf = RandomForestClassifier() 
kbest = SelectKBest() 
pipe = make_pipeline(kbest,clf) 

upLim = X_train.shape[1] 
param_dist = {'selectkbest__k':sp_randint(upLim/2,upLim+1), 
    'randomforestclassifier__n_estimators': sp_randint(5,150), 
    'randomforestclassifier__max_depth': [5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, None], 
    'randomforestclassifier__criterion': ["gini", "entropy"], 
    'randomforestclassifier__max_features': ['auto', 'sqrt', 'log2']} 
clf_opt = RandomizedSearchCV(pipe, param_distributions= param_dist, 
          scoring='roc_auc', n_jobs=1, cv=3) 
clf_opt.fit(X_train,y_train) 
y_pred = clf_opt.predict(X_test) 

Надеюсь, это поможет другим!

+0

Хотя я не уверен, почему исходный код не работает должным образом (и я слишком ленив, чтобы работать над ним), я бы не назвал это решение идеальным. Здесь вы предполагаете, что порядок операций между этими тремя компонентами всегда один и тот же, который должен быть в порядке с этим кодом, но может ввести проблему в более сложные задачи. Это в основном переход от нескольких случайных потоков к одному случайному потоку. – sascha

+0

@sascha: Спасибо за ваш комментарий! Мне все еще интересно узнать основную причину. Считаете ли вы, что использование 'scipy.stats.randint' вызвало проблему? – MhFarahani

 Смежные вопросы

  • Нет связанных вопросов^_^