Мне нужно построить модель классификации случайных лесов на основе набора данных с 100 предикторами и 30 млн строк. Целевая переменная двоичная. Важно рассчитать значение оценки для каждой строки, которая является стандартной опцией для РЧ-алгоритмов. Я успешно построил модели RF с до 70 000 строк. Обработка больших наборов данных заканчивается сообщением об ошибке ограничения памяти. Я знаю о возможности разбить большой набор данных на несколько достаточно маленьких наборов данных и обрабатывать их отдельно. Но с 30 миллионами записей у меня было бы слишком много подмножеств, и я предпочел бы найти более удобный подход.случайная модель леса на большом наборе данных
Итак, вот мой вопрос: есть ли способ обрабатывать 30 миллионов строк одновременно для создания RF-модели? Прежде всего, меня интересуют решения R или Python. Каковы ожидаемые временные ограничения?
Плюс один для H2O, прост в применении в R. – Minnow