Я использую adabag R-пакета, чтобы подгонять деревья с увеличенным (большим) набором данных (140 наблюдений с 3 845 предикторами).различные значения путем установки увеличенного дерева дважды
Я выполнил этот метод дважды с тем же параметром и тем же набором данных и каждый раз, когда возвращались различные значения возвращаемой точности (я определил простую функцию, которая дает точность, учитывая набор данных). Я сделал ошибку или обычно, что в каждой подгонке разные значения точности возвращаются? Эта проблема основана на том, что набор данных большой?
Функция, которая возвращает точность с учетом прогнозируемых значений и значений истинных значений теста.
err<-function(pred_d, test_d)
{
abs.acc<-sum(pred_d==test_d)
rel.acc<-abs.acc/length(test_d)
v<-c(abs.acc,rel.acc)
return(v)
}
новый Edit (9.1.2017): важный следующий вопрос выше контексте.
Насколько я могу видеть, я не использую никаких «объектов случайности псевдо» (например, генерации случайных чисел и т.д.) в моем коде, потому что я в основном подходят деревья (с помощью г-пакета rpart) и росту деревьев (с использованием r-пакета adabag) в большой набор данных. Можете ли вы объяснить мне, где «псевдослучайность» входит, когда я выполняю свой код?
Редактировать 1: Подобное явление происходит и с деревом (с использованием R-пакета rpart).
Редактировать 2: Подобное явление не происходило с деревьями (с использованием rpart) на наборе диафрагмы данных.
я думаю, что вы должны использовать 'set.seed' для того, чтобы получить те же результаты. –
Да, нет причин, по которым вам следует ожидать получения тех же результатов, если вы не установили свое семя. –
@ChirayuChamoli К сожалению, я не знаком с этой функцией. Могу ли я разместить его в любом месте исполняемого кода? Какое значение следует задать (например, set.seed (1))? – bjn