Я фитинг случайного леса, и я разделить мои данные в обучающем набор и тестовый набор, используя следующий код:Что делать xtest = и ytest = делать в алгоритме randomForest в R?
train <- sample(1:nrow(Boston), (nrow(Boston))/2))
EDIT: здесь, поезд, очевидно, только индекс и, таким образом, набор тестов следующим образом:
testB <- Boston[-train,]; head(test); length(test)
Имя переменной ответа является medy, и это четырнадцатая колонка.
У меня также есть следующий код для моего случайного леса (на самом деле я расфасовка здесь, потому что общее число переменных в моем наборе данных является 13):
bag.boston1 <- randomForest(medv~., data=Boston, subset=train, mtry=13, importance=TRUE, ytest=testB$medv, xtest=)
Является ли мой аргументом для ytest = вариант правильный? Я так считаю, что это всего лишь переменная ответа в наборе тестовых данных.
Также, какой аргумент следует использовать для параметра xtest =?
Одна из моих идей заключалась в том, чтобы просто исключить переменную ответа из моего набора тестовых данных, создав таким образом кадр данных только для предсказателей в наборе тестовых данных, и тогда у меня мог бы быть самый последний аргумент - итоговая матрица x:
`x <- testB`
x[14] <- NULL # because the 14th column is the response variable
bag.boston1 <- randomForest(medv~., data=Boston, subset=train, mtry=13,
importance=TRUE, ytest=testB$medv, xtest=x)