4

Мне еще не удалось заставить Spark, Scala и Jupyter сотрудничать. У кого-нибудь есть простой рецепт? Какую версию каждого компонента вы использовали?Запуск Spark + Scala + Jupyter на Dataproc

+0

Вместо этого вы можете использовать дирижабль –

+0

В самом деле, что является хорошей альтернативой, которая работала из коробки. Но ничего себе, половину гигабайта для ноутбука? Что они делают? Я оставлю этот вопрос открытым, пока кто-то не покажет, как заставить Юпитера работать с Scala и Spark. Тем временем я буду использовать Цеппелин. Спасибо за предложение. – Emre

+0

Он поддерживает множество интерпретаторов, которые объединены в один и тот же двоичный файл, из-за чего двоичный файл zeppelin очень большой. Но они будут удалять этот интерпретатор в версии 0.6 и предоставлять внешнюю утилиту для установки интерпретатора, который нужен пользователю. –

ответ

4

Apache Toree совместим с образцом DataProc 1.0, который в настоящее время включает в себя Spark 1.6.1. Я безуспешно пытался использовать его с предварительным изображением, которое включает предварительный просмотр Spark 2.0. Чтобы установить Toree на мастер DataProc вы можете запустить

sudo apt install python3-pip 
pip3 install --user jupyter 
export SPARK_HOME=/usr/lib/spark 
pip3 install --pre --user toree 
export PATH=$HOME/.local/bin:$PATH 
jupyter toree install --user --spark_home=$SPARK_HOME 
+0

Интересно. Их версия документации подразумевает, что она не должна быть совместимой: https://github.com/apache/incubator-toree#version. –

+0

1.6.1 соответствует «1.5.1+», что они говорят. По крайней мере, он должен работать; Я только что начал тестировать. – Emre

0

Искры включены в стандартную комплектацию кластеров Dataproc.

Вот команда gcloud вы можете использовать для создания кластера Dataproc (названный «dplab»), который включает в себя Jupyter прослушивает порт 8124:

$ gcloud dataproc clusters create dplab \ 
--initialization-actions \ 
    gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
--metadata "JUPYTER_PORT=8124" \ 
--zone=us-central1-c 

Затем запустите эту команду в порт-вперед с вашего хоста ведущий кластера:

$ gcloud compute ssh dplab-m \ 
--ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c 

Открыть локальный адрес: 8124 в вашем браузере, и вы должны увидеть страницу Jupyter.

+2

Отлично. Где Скала? – Emre