Использование набора данных для проверки и обучения в RandomForest

Я здесь, чтобы задать основной вопрос об использовании функции RandomForest в RandomForest package. Я использую RF algorithm для выполнения классификации титульного листа.Использование набора данных для проверки и обучения в RandomForest

У меня есть данные geo-spatial, которые я разделил на набор учебных материалов (pks_trainingdf) и набор данных валидации (pks_validationdf).

Каждый df содержит 34 колонки; первые 33 столбца - это полосы, которые я хочу использовать для классификации; последний столбец («класс») содержит классы, которые должны быть результатом классификации RF.

Мой вопрос: какой набор данных является аргументом x и который из xtest? Правильная ли строка кода?

modelRF_5 <- randomForest(x=pks_validationdf[, c(1:33)], 
         y=pks_validationdf$class, xtest=pks_trainingdf[, c(1:33)], 
         ytest=pks_trainingdf$class, importance=TRUE)

источник

2017-02-16 Laura Paladini

x предназначен для подмножества обучения, в то время как xtest предназначен для подпрограммы проверки или проверки. В вашем случае это выглядит обратным. это не важно, если оба имеют одинаковый размер (обычно это не так). Важно, чтобы вы рандомизировали набор данных до разделения на подмножества обучения и проверки. Если нет, вы должны изменить его. Кроме того, безопаснее разделить на три подмножества, а не на 2. Один для обучения, другой для проверки модели и последнего для сообщения об ошибке.

источник

2017-02-16 23:23:06

Спасибо за ваш ответ, это именно то, что я искал! Итак, я получил набор данных для обучения и валидации с помощью Random Samping, так что все должно быть хорошо, не так ли? И если я хочу разделить набор данных на три части, как это будет работать? x будет обучающим набором данных, xtest тестовый набор данных для сообщения об ошибке, поэтому где будет храниться набор данных проверки ...? –

Что делать, если у меня есть обучающие пиксели + пикселы проверки + неизвестные пиксели (последние классифицируются)? –

Если у вас есть 3 подмножества, сначала используйте валидацию для настройки модели и определения размера тренировки. Вы можете сделать это, построив кривые обучения и используя метод локтя. Другой раздел (тест) - это тот, который вы собираетесь использовать для проверки и получения окончательной точности и ошибки вашей модели. –

Использование набора данных для проверки и обучения в RandomForest

ответ

Смежные вопросы