0

я просто повышен до Спарк 2.0 от 1.4 и загрузить каталог EC2 от github.com/amplab/spark-ec2/tree/branch-2.0Запуск pyspark IPython ноутбук на ec2

Чтобы раскрутить некоторые кластеры я иду к мой каталог ec2 и выполните следующие команды:

./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name> 

./spark-ec2 -k <keypair> -i <key-file> login <cluster-name> 

у меня есть кластеры и я вошел в мастер, но я не знаю, как начать pyspark ноутбук. С Спарк 1.4 я побегу команду

IPYTHON_OPTS="notebook --ip=0.0.0.0" /root/spark/bin/pyspark --executor-memory 4G --driver-memory 4G & 

и у меня есть ноутбук и работает нормально, но с искрой 2.0 нет каталога bin/pyspark. Может кто-нибудь помочь с этим?

ответ

1

Согласно комментариям источника:

https://apache.googlesource.com/spark/+/master/bin/pyspark

В Спарк 2.0 IPython и IPYTHON_OPTS удаляются и pyspark не удается запустить если либо параметр установлен в среде пользователя. Вместо этого пользователи должны установить PYSPARK_DRIVER_PYTHON = ipython для использования IPython и установить PYSPARK_DRIVER_PYTHON_OPTS для передачи параметров при запуске драйвера Python (например, PYSPARK_DRIVER_PYTHON_OPTS = 'notebook'). Это поддерживает полную настройку исполняемых файлов Python для IPython и исполнителей.

Следующие link будут проходить шаг за шагом. Наряду с обновлением до Spark 2.0 вам также следует обновить до ноутбуков Juypter (ранее Ipython Notebooks).

+0

Означает ли это, что мне нужно добавить экспорт строк PYSPARK_DRIVER_PYTHON = ipython экспорт PYSPARK_DRIVER_PYTHON_OPTS = "notebook" в мой .bash_profile? – jakko

+0

Короткий ответ Да, но, пожалуйста, см. Мой отредактированный ответ со ссылкой, чтобы сделать шаг за шагом. Возьмите то, что вам нужно, не обращайте внимания на остальных. – user7351608

 Смежные вопросы

  • Нет связанных вопросов^_^