У меня есть трубопровод с TfidVectorizer и OneVsRestClassifier (SGDClassifier). Это параметры gridSearch я хочу, чтобы выполнить:Полезно ли использовать GridSearch в небольшом наборе данных и применять результаты на большом?
parameters = {'tfidf-vect__ngram_range': ((1, 1), (1, 3)),
'tfidf-vect__stop_words': (None,'english'),
'tfidf-vect__min_df': (1e-3,1e-6),
'tfidf-vect__max_features': (1e7,1e4),
'tfidf-vect__norm': ('l1','l2',None),
'tfidf-vect__use_idf': (True, False),
'tfidf-vect__sublinear_tf': (True, False),
'clf__estimator__alpha': (1e-5, 1e-7),
'clf__estimator__loss':('hinge', 'log', 'modified_huber'),
'clf__estimator__penalty':(None, 'l2', 'l1','elasticnet'),
'clf__estimator__class_weight':("auto", None),
'clf__estimator__warm_start':(True,False),
'clf__estimator__average':(True,False,4,8,16)
}
Проблема: Я хочу знать, что наилучшее сочетание параметров, но я не могу запустить gridSearch, как это на 100k случаях с моим компьютером ,
Вопрос: Насколько подобны результаты такого вида gridSearch (возможно, с меньшим набором параметров) на наборе данных 100 тыс. Экземпляров и подмножество дат, скажем, 10-20 тыс. Выборок?
Как вы уже знаете, я имею дело с многотомной классификацией проблем текста.
Спасибо :)