2017-02-21 14 views

ответ

1

В Spark 2.X - для того, чтобы использовать Spark Session (ака spark), необходимо создать его

вы можете создать SparkSession так:

from pyspark.sql import SparkSession 

spark = SparkSession \ 
    .builder \ 
    .appName("Python Spark SQL basic example") \ 
    .getOrCreate() 

После того как вы SparkSession объект (spark) вы можете использовать его как это:

mydf = spark.read.parquet("hdfs://localhost:54310/yogi/device/processed//data.parquet") 
mydf.forearch(f) 

Более подробную информацию можно найти в Spark Sessions section in spark docs:

class pyspark.sql.SparkSession(sparkContext, jsparkSession=None)

The entry point to programming Spark with the Dataset and DataFrame API. A SparkSession can be used create DataFrame, register DataFrame as tables, execute SQL over tables, cache tables, and read parquet files. To create a SparkSession, use the following builder pattern:

spark = SparkSession.builder \ 
    .master("local") \ 
    .appName("Word Count") \ 
    .config("spark.some.config.option", "some-value") \ 
    .getOrCreate() 

Информация о классе построитель можно найти в class Builder - Builder for SparkSession.