2015-09-21 1 views
2

Я использую Rborist для создания случайного леса в R. Но, построив модель с использованием набора для обучения, используя функцию predict (predict.Rborist), R рушится с сообщением «R для Windows GUI front-end перестает работать».Случайный лес (Rborist) с большим набором данных в R

Я использую машину с 8-ядерным процессором, 32-гигабайтным ОЗУ, а мой набор данных содержит 150 тыс. Записей вместе с переменными 2 тыс. Для создания случайного леса, использующего весь набор данных, требуется 2 часа при параллельной обработке.

Хотя это может быть ошибка памяти, статус использования CPU или памяти не указывает на это. Пожалуйста помоги.

+0

Вы можете попытаться уменьшить свои данные обучения. Точно, насколько велики ваши полные данные (тестовые + тренировочные + проверки)? – Gaurav

+0

Недавно я пробовал тот же процесс с 150k записей и только 12 переменных, и модель была построена, но, предсказывая, R снова перестала работать. –

+1

Ну, если ваши данные имеют размер «n», вы можете сохранить свои данные обучения в sqrt (n) и по-прежнему удалять статистический смысл с вашей модели. В идеале здание модели - боль в шее ... для прогнозирования вы всегда можете разделить свои данные на меньшие наборы данных ... – Gaurav

ответ

2

Indranil,

Это, скорее всего, не проблема с памятью. Метод pred() имел ошибку, в которой подсчет строк неявно предполагался меньшим или равным исходному счетчику строк. Версия на Github исправляет эту проблему и выглядит стабильной. Новая версия CRAN просрочена и ждет нескольких изменений.