Предположим, у нас есть записи с несколькими функциями, относящимися к целевому номеру, который мы пытаемся предсказать. Все записи соответствуют одному и тому же основному шаблону и хорошо изучены RandomForestRegressor
. Давайте теперь скажем, что все записи добавили категориальную функцию, которая может быть закодирована как дополнительная информация, чтобы улучшить способность предсказания модели. Все идет нормально.Может ли категориальная информация улучшить прогноз для категорий вне выборки?
Но Теперь давайте говорить, что мы хотим использовать наш регрессор, который был обучения на данных, включая категорическую функцию для прогнозирования записи с новой категории не представлены в обучающих данных. В этом контексте категориальная информация становится бесполезной (или хуже?). Следует ли переучивать модель без какой-либо категориальной информации, чтобы получить наилучшую производительность обобщения (поскольку она ранее соответствовала категориям, не указанным в этом наборе данных)? Или существует ли какой-то возможный способ, чтобы знание категории членства в данных обучения могло улучшить способность прогнозирования к категории вне выборки?
«все записи принадлежат к одной из нескольких групп, которые могут быть закодированы как дополнительная информация»: так что вы прогнозируете? если вы попытаетесь предсказать группы и дать группам функцию для вашего учебного набора, то на самом деле нет обучения, это просто прогноз на эту функцию, и поэтому предсказание невидимых данных будет невозможно ... – MMF
Я пытаюсь предскажите целевое значение, которое отделено от категориальной функции, которую я назвал группой. Я буду перефразировать, чтобы уточнить. –
Так, например, данные обучения имеют переменную «страна» со значениями «[США, Канада]», а в данных теста переменная страны принимает значения «[Мексика, Куба]»? Если эти множества не пересекаются, то вы не должны включать переменную. Если вы ожидаете увидеть ** некоторые ** исходных значений в тестовых данных, вы должны их использовать. – maxymoo