2015-08-03 7 views
0

Я участвую в конкурсе Kaggle с 4 другими людьми. Мы все встретились в MOOC by edx.org.Инфраструктура для работы Spark

Хотя мы можем использовать код с помощью Apache Spark, мы не знаем, как настроить кластер и установить необходимое программное обеспечение для запуска искры.

В идеале мы ищем свободную платформу, которая позволяет нам сосредоточиться на программировании.

Вы знаете какую-либо платформу, которая проста в использовании и, в идеале, бесплатна? Если их нет, можете ли вы рассказать нам, как создать необходимую инфраструктуру для участия в этом вызове?

спасибо, что заранее.

ответ

1

Невозможно запустить standalone cluster в Linux или OS X с помощью прилагаемых скриптов, которых может быть достаточно, если вы можете работать с одним узлом или каждый из них вносит свои компьютеры разработки в кластер (в той же локальной сети).

Когда вам нужно масштабировать, AWS EMR довольно просто.

За небольшую сумму денег Databricks предлагает Spark как управляемое обслуживание. Это означает, что вам действительно не нужно слишком много думать о запуске кластера.

+0

Поскольку все мы живем в разных местах, запуск кластера в одной и той же локальной сети не является вариантом. – Paca

+0

Поскольку все мы живем в разных местах, запуск кластера в той же локальной сети не является вариантом. Размер файла необработанных данных (.csv) составляет примерно 80 МБ. Могу ли я запустить это локально, или это займет навсегда выполнение задачи? – Paca

+0

Во время разработки вам может не понадобиться использовать все ваши данные. 80MB не так уж много. Is Spark лучший выбор? Вы считали R или Python для своего первого соревнования? –