2016-11-18 8 views
0

У меня есть набор данных, который составляет около 1 ГБ, что не соответствует памяти (поскольку, когда мы применяем LM в R, он также создает другие переменные, которые также потребляют память). Интересно, есть ли способ использовать эти хорошие пакеты машинного обучения (например, glm, random forest, neural nets) в R, чтобы сделать анализ в этой ситуации? Я ценю любые предложения и рекомендации.Применить пакеты обучения машины в R к большому набору данных

+3

проверьте раздел «Большая память и данные из памяти» в разделе [Просмотр задачи HPC] (https://cran.r-project.org/web/views/HighPerformanceComputing.html) –

ответ

2

См. high-performance task view on CRAN, в частности раздел о большой памяти и данных из памяти.

Альтернативно: вам, возможно, придется заплатить деньги, но подумайте об использовании Microsoft R Server. MRS, ранее известная как Revolution R Enterprise, призвана нарушить барьер памяти, когда дело доходит до работы с большими наборами данных. Он доступен как для Windows, так и для Linux, а также позволяет анализировать в базе данных с помощью SQL Server, Teradata, Hadoop (Cloudera, Hortonworks и HDInsight) и Spark.

Раскрытие информации: Я сотрудник Microsoft.

1

Если вы можете использовать Spark, рассмотрите sparklyr (бесплатно).

+2

Это будет Хороший комментарий к ответу Хонга, но его не совсем ответ сам по себе. –

+0

Ответ был ниже. Я удалил «комментарий». – dommer