2015-09-19 2 views
3

Я работаю с очень большим набором данных, около 120 000 строк и 34 столбцов. Как вы можете хорошо изобразить, при использовании R-пакета randomForest, программа занимает довольно много часов для запуска даже на мощном сервере Windows.Использование comb() с R-пакетом randomForest

Хотя я не эксперт в randomForest, у меня есть вопрос о правильном использовании функции comb().

Кажется, у меня возникают противоречивые ответы, когда я исследовал этот вопрос в Интернете. Некоторые говорят, что вы можете использовать comb() только при использовании randomForest на одном наборе данных. Другие говорят, что вы можете просто использовать comb().

Что бы я хотел (надеюсь, мечта), это разбить 120 000 строк данных на 6 кадров данных, каждый из которых содержит 20 000 строк и выполнить randomForest для каждого из 6 кадров данных. Я надеюсь, что я могу использовать функцию comb(), чтобы затем объединить результаты всех 6 вместе. Это возможно?

Любая помощь в этом вопросе была бы весьма признательна.

+0

Обучение с использованием суб-леса является хорошей идеей. Я не знаю о функции 'comb', но я знаю, что у распределенного R есть [распределенная randomForest] (https://github.com/vertica/DistributedR/tree/master/algorithms/HPdclassifier) ​​реализация, которая может быть решением для твоя проблема. –

+0

Комбинация() может вызвать проблемы при записи. Я бы подумал, что самый простой способ - не использовать функцию комбайна. Просто тренируйте леса и поместите их в список и совокупные голоса во всех лесах. Ох, еще лучше, постарайтесь установить sampsize = 5000 и тренироваться по целым данным. Тогда для каждого дерева выбирается только 5000 образцов, и он должен работать довольно быстро. –

ответ

2

Пару часов кажется много времени. Вы уверены, что работаете на оптимизированной машине? Возможно, вы могли бы экспериментировать с Linux и AWS EC2. Также проверьте ranger, который был с пару недель http://arxiv.org/abs/1508.04409 и https://cran.r-project.org/web/packages/ranger/index.html

Также проверьте parallel execution of random forest in R