Я здесь, чтобы задать основной вопрос об использовании функции RandomForest
в RandomForest package
. Я использую RF algorithm
для выполнения классификации титульного листа.Использование набора данных для проверки и обучения в RandomForest
У меня есть данные geo-spatial
, которые я разделил на набор учебных материалов (pks_trainingdf) и набор данных валидации (pks_validationdf).
Каждый df
содержит 34 колонки; первые 33 столбца - это полосы, которые я хочу использовать для классификации; последний столбец («класс») содержит классы, которые должны быть результатом классификации RF
.
Мой вопрос: какой набор данных является аргументом x
и который из xtest
? Правильная ли строка кода?
modelRF_5 <- randomForest(x=pks_validationdf[, c(1:33)],
y=pks_validationdf$class, xtest=pks_trainingdf[, c(1:33)],
ytest=pks_trainingdf$class, importance=TRUE)
Спасибо за ваш ответ, это именно то, что я искал! Итак, я получил набор данных для обучения и валидации с помощью Random Samping, так что все должно быть хорошо, не так ли? И если я хочу разделить набор данных на три части, как это будет работать? x будет обучающим набором данных, xtest тестовый набор данных для сообщения об ошибке, поэтому где будет храниться набор данных проверки ...? –
Что делать, если у меня есть обучающие пиксели + пикселы проверки + неизвестные пиксели (последние классифицируются)? –
Если у вас есть 3 подмножества, сначала используйте валидацию для настройки модели и определения размера тренировки. Вы можете сделать это, построив кривые обучения и используя метод локтя. Другой раздел (тест) - это тот, который вы собираетесь использовать для проверки и получения окончательной точности и ошибки вашей модели. –