Используя настройки поезда в пакете каретки, я пытаюсь обучить случайную модель леса для набора данных xtr2 (dim (xtr2): 765 9408). Проблема в том, что он невероятно занимает слишком много времени (более одного дня для одного обучения), чтобы соответствовать функции. Насколько я знаю, по умолчанию по умолчанию используется выборка бутстрапа (25 раз) и три случайных выбора mtry, так почему это должно занять так много времени? Обратите внимание, что мне нужно тренировать rf три раза за каждый прогон (потому что мне нужно сделать среднее из результатов различных случайных моделей леса с теми же данными), и это занимает около трех дней, и мне нужно запустить код для 10 разных образцов, так что мне понадобится 30 дней, чтобы получить результаты.R caret randomforest
Мой вопрос: как я могу сделать это быстрее?
Возможно изменение по умолчанию поезда делает время работы меньше? например, используя CV для обучения?
Может ли параллельная обработка с помощью пакета помощи? если да, как это можно сделать?
Может ли tuneRF случайного пакета леса внести какие-либо изменения вовремя?
Это код:
rffit=train(xtr2,ytr2,method="rf",ntree=500)
rf.mdl =randomForest(x=xtr2,y=as.factor(ytr2),ntree=500,
keep.forest=TRUE,importance=TRUE,oob.prox =FALSE ,
mtry = rffit$bestTune$mtry)
Спасибо,
Вы можете поделиться своим образцом набора данных? –
'dim (xtr2): 765 9408' что это значит? – user31264
Что требуется 24 часа: 'train' или' randomForest'? Какова ценность 'rffit $ bestTune $ mtry'? Вы пытались вызвать randomForest или тренироваться по тем же параметрам на небольших образцах данных (например, 50 элементов) и посмотреть, что происходит? Попробовали ли вы на этих маленьких образцах играть с параметрами: keep.forest, важность, oob.prox, mtry? – user31264