0

У меня есть трубопровод с TfidVectorizer и OneVsRestClassifier (SGDClassifier). Это параметры gridSearch я хочу, чтобы выполнить:Полезно ли использовать GridSearch в небольшом наборе данных и применять результаты на большом?

parameters = {'tfidf-vect__ngram_range': ((1, 1), (1, 3)), 
       'tfidf-vect__stop_words': (None,'english'), 
       'tfidf-vect__min_df': (1e-3,1e-6), 
       'tfidf-vect__max_features': (1e7,1e4), 
       'tfidf-vect__norm': ('l1','l2',None), 
       'tfidf-vect__use_idf': (True, False), 
       'tfidf-vect__sublinear_tf': (True, False), 
       'clf__estimator__alpha': (1e-5, 1e-7), 
       'clf__estimator__loss':('hinge', 'log', 'modified_huber'), 
       'clf__estimator__penalty':(None, 'l2', 'l1','elasticnet'), 
       'clf__estimator__class_weight':("auto", None), 
       'clf__estimator__warm_start':(True,False), 
       'clf__estimator__average':(True,False,4,8,16) 
} 

Проблема: Я хочу знать, что наилучшее сочетание параметров, но я не могу запустить gridSearch, как это на 100k случаях с моим компьютером ,

Вопрос: Насколько подобны результаты такого вида gridSearch (возможно, с меньшим набором параметров) на наборе данных 100 тыс. Экземпляров и подмножество дат, скажем, 10-20 тыс. Выборок?

Как вы уже знаете, я имею дело с многотомной классификацией проблем текста.

Спасибо :)

ответ

1

Да, это достойная стратегия. Вы никоим образом не гарантируете лучшее, но они все равно должны быть достаточно хорошими. Вы должны быть осторожны, хотя вы не перегружаете меньший набор данных при поиске параметров.