Мне еще не удалось заставить Spark, Scala и Jupyter сотрудничать. У кого-нибудь есть простой рецепт? Какую версию каждого компонента вы использовали?Запуск Spark + Scala + Jupyter на Dataproc
ответ
Apache Toree совместим с образцом DataProc 1.0, который в настоящее время включает в себя Spark 1.6.1. Я безуспешно пытался использовать его с предварительным изображением, которое включает предварительный просмотр Spark 2.0. Чтобы установить Toree на мастер DataProc вы можете запустить
sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME
Интересно. Их версия документации подразумевает, что она не должна быть совместимой: https://github.com/apache/incubator-toree#version. –
1.6.1 соответствует «1.5.1+», что они говорят. По крайней мере, он должен работать; Я только что начал тестировать. – Emre
Искры включены в стандартную комплектацию кластеров Dataproc.
Вот команда gcloud вы можете использовать для создания кластера Dataproc (названный «dplab»), который включает в себя Jupyter прослушивает порт 8124:
$ gcloud dataproc clusters create dplab \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--metadata "JUPYTER_PORT=8124" \
--zone=us-central1-c
Затем запустите эту команду в порт-вперед с вашего хоста ведущий кластера:
$ gcloud compute ssh dplab-m \
--ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c
Открыть локальный адрес: 8124 в вашем браузере, и вы должны увидеть страницу Jupyter.
Отлично. Где Скала? – Emre
Вместо этого вы можете использовать дирижабль –
В самом деле, что является хорошей альтернативой, которая работала из коробки. Но ничего себе, половину гигабайта для ноутбука? Что они делают? Я оставлю этот вопрос открытым, пока кто-то не покажет, как заставить Юпитера работать с Scala и Spark. Тем временем я буду использовать Цеппелин. Спасибо за предложение. – Emre
Он поддерживает множество интерпретаторов, которые объединены в один и тот же двоичный файл, из-за чего двоичный файл zeppelin очень большой. Но они будут удалять этот интерпретатор в версии 0.6 и предоставлять внешнюю утилиту для установки интерпретатора, который нужен пользователю. –