я просто повышен до Спарк 2.0 от 1.4 и загрузить каталог EC2 от github.com/amplab/spark-ec2/tree/branch-2.0Запуск pyspark IPython ноутбук на ec2
Чтобы раскрутить некоторые кластеры я иду к мой каталог ec2 и выполните следующие команды:
./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>
./spark-ec2 -k <keypair> -i <key-file> login <cluster-name>
у меня есть кластеры и я вошел в мастер, но я не знаю, как начать pyspark ноутбук. С Спарк 1.4 я побегу команду
IPYTHON_OPTS="notebook --ip=0.0.0.0" /root/spark/bin/pyspark --executor-memory 4G --driver-memory 4G &
и у меня есть ноутбук и работает нормально, но с искрой 2.0 нет каталога bin/pyspark. Может кто-нибудь помочь с этим?
Означает ли это, что мне нужно добавить экспорт строк PYSPARK_DRIVER_PYTHON = ipython экспорт PYSPARK_DRIVER_PYTHON_OPTS = "notebook" в мой .bash_profile? – jakko
Короткий ответ Да, но, пожалуйста, см. Мой отредактированный ответ со ссылкой, чтобы сделать шаг за шагом. Возьмите то, что вам нужно, не обращайте внимания на остальных. – user7351608