Я работаю с очень большим набором данных, около 120 000 строк и 34 столбцов. Как вы можете хорошо изобразить, при использовании R-пакета randomForest, программа занимает довольно много часов для запуска даже на мощном сервере Windows.Использование comb() с R-пакетом randomForest
Хотя я не эксперт в randomForest, у меня есть вопрос о правильном использовании функции comb().
Кажется, у меня возникают противоречивые ответы, когда я исследовал этот вопрос в Интернете. Некоторые говорят, что вы можете использовать comb() только при использовании randomForest на одном наборе данных. Другие говорят, что вы можете просто использовать comb().
Что бы я хотел (надеюсь, мечта), это разбить 120 000 строк данных на 6 кадров данных, каждый из которых содержит 20 000 строк и выполнить randomForest для каждого из 6 кадров данных. Я надеюсь, что я могу использовать функцию comb(), чтобы затем объединить результаты всех 6 вместе. Это возможно?
Любая помощь в этом вопросе была бы весьма признательна.
Обучение с использованием суб-леса является хорошей идеей. Я не знаю о функции 'comb', но я знаю, что у распределенного R есть [распределенная randomForest] (https://github.com/vertica/DistributedR/tree/master/algorithms/HPdclassifier) реализация, которая может быть решением для твоя проблема. –
Комбинация() может вызвать проблемы при записи. Я бы подумал, что самый простой способ - не использовать функцию комбайна. Просто тренируйте леса и поместите их в список и совокупные голоса во всех лесах. Ох, еще лучше, постарайтесь установить sampsize = 5000 и тренироваться по целым данным. Тогда для каждого дерева выбирается только 5000 образцов, и он должен работать довольно быстро. –