Я участвую в конкурсе Kaggle с 4 другими людьми. Мы все встретились в MOOC by edx.org.Инфраструктура для работы Spark
Хотя мы можем использовать код с помощью Apache Spark, мы не знаем, как настроить кластер и установить необходимое программное обеспечение для запуска искры.
В идеале мы ищем свободную платформу, которая позволяет нам сосредоточиться на программировании.
Вы знаете какую-либо платформу, которая проста в использовании и, в идеале, бесплатна? Если их нет, можете ли вы рассказать нам, как создать необходимую инфраструктуру для участия в этом вызове?
спасибо, что заранее.
Поскольку все мы живем в разных местах, запуск кластера в одной и той же локальной сети не является вариантом. – Paca
Поскольку все мы живем в разных местах, запуск кластера в той же локальной сети не является вариантом. Размер файла необработанных данных (.csv) составляет примерно 80 МБ. Могу ли я запустить это локально, или это займет навсегда выполнение задачи? – Paca
Во время разработки вам может не понадобиться использовать все ваши данные. 80MB не так уж много. Is Spark лучший выбор? Вы считали R или Python для своего первого соревнования? –