2016-07-27 2 views
3

В настоящее время я работаю над диссертацией, которая включает в себя работу с довольно значительным набором данных: ~ 4 млн. Наблюдений и ~ 260-е. Это набор данных из шахматных игр, где большинство функций - игровые манекены (130 тыс. Для каждого цвета).Работа с большими данными для выполнения произвольной классификации леса

Что касается аппаратного и программного обеспечения, у меня на этом компьютере около 12 ГБ оперативной памяти. Я выполняю всю свою работу в Python 3.5 и использую в основном пакеты pandas и scikit-learn.

Моя проблема заключается в том, что я не могу загрузить этот объем данных в свою ОЗУ. То, что я хотел бы сделать, это создать фиктивные переменные, а затем разрезать базу данных примерно на тысячу кусков, применить случайный лес и снова заполнить результаты.

Однако для этого мне нужно будет сначала создать фиктивные переменные, которые я не могу выполнить из-за ошибки памяти, даже если я использую разреженные матрицы. Теоретически, я мог бы сначала сначала нарезать базу данных, а затем создать фиктивные переменные. Однако эффект от этого будет заключаться в том, что у меня будут разные функции для разных фрагментов, поэтому я не уверен, как собрать такие результаты.

Мои вопросы:
1. Как бы вы, ребята, подойти к этой проблеме? Есть ли способ «слить» результаты моей оценки, несмотря на разные функции в разных «кусках» данных?
2. Возможно, можно вообще избежать этой проблемы путем аренды сервера. Существуют ли какие-либо пробные версии таких услуг? Я не уверен, сколько CPU/RAM мне понадобится для выполнения этой задачи.

Спасибо за вашу помощь, любые советы будут оценены :)

+1

За второй вопрос: Может быть, студенческая программа AWS будет вам интересна: https://aws.amazon.com/education/awseducate/. –

+0

По-видимому, мой uni испортил свой адрес электронной почты, и мое приложение получает insta-отклонено, но я постараюсь связаться с ними и посмотреть, что я могу сделать, спасибо! :) – JohnnyQ

ответ

4

Я хотел бы предложить вам дать CloudxLab попробовать.

Хотя он не является бесплатным, он вполне доступен ($ 25 за месяц). Он обеспечивает полную среду для экспериментов с различными инструментами, такими как HDFS, Map-Reduce, Hive, Pig, Kafka, Spark, Scala, Sqoop, Oozie, Mahout, MLLib, Zookeeper, R, Scala и т. Д. Многие из популярных тренеров используют CloudxLab ,