Когда я запускаю настройку pyspark, он создает ноутбук Jupyter, с которым я могу с радостью получить доступ в Интернете. Он также автоматически создает объекты, такие как «sc» и «spark» - контексты. Где я могу переопределить, как эти объекты инициализируются?Как установить контекст pyspark по умолчанию в jupyter ноутбуках?
0
A
ответ
0
Запустить чистое ядро python в jupyter. Затем добавить переменные среды для искры и pyspark и предварять sys.path
с pyspark LIBS, например:
import os, sys
os.environ['SPARK_HOME'] = '/home/mario/spark-2.1.0-bin-hadoop2.7'
os.environ['PYSPARK_SUBMIT_ARGS'] = "--master local[2] --driver-memory 2g pyspark-shell"
os.environ['PYSPARK_PYTHON'] = '/usr/bin/python3'
sys.path.insert(0, '/home/mario/spark-2.1.0-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip')
sys.path.insert(0, '/home/mario/spark-2.1.0-bin-hadoop2.7/python')
Затем вы можете настроить инициализацию искры внутри jupyter ячейки, например:
from pyspark.sql.session import SparkSession
spark = (SparkSession.builder
.appName('picapica')
.config('spark.speculation', 'true')
.getOrCreate())