0

Я хотел бы найти лучшие параметры для классификатора RandomForest (с scikit-learn) таким образом, чтобы он хорошо менялся с другими наборами данных (что не может быть iid). Я думал о поиске сетки, используя весь набор учебных материалов, оценивая функцию подсчета очков на других наборах данных. Легко ли это сделать в python/scikit-learn?Как сделать GridSearchCV с поездом и тестированием разных наборов данных?

+0

Вы не можете оценить функцию подсчета очков в другом наборе данных. – MMF

ответ

1

Если вы можете, вы можете просто объединить два набора данных и выполнить GridSearchCV, это обеспечит возможность обобщения другому набору данных. Если вы говорите об обобщении с будущим неизвестным набором данных, это может не сработать, потому что нет идеального набора данных, из которого мы можем обучить идеальную модель.

+0

Спасибо! есть ли у вас упоминания об обобщении будущего неизвестного набора данных? – user6903745

1

Я не думаю, что вы можете оценить другой набор данных. Вся идея GridSearchCV заключается в том, что она разбивает ваш набор тренировок на n сгибов, поезда на n-1 этих складок и оценивает оставшуюся, повторяя процедуру до тех пор, пока каждая сводка не станет «странной». Это не позволяет вам выделить определенный набор проверок, и вы можете просто использовать тренинг и набор тестов.