pyspark ошибка: AttributeError: объект «SparkSession» не имеет атрибута «сериалайзер»

Я использую искру вер 2.0.1pyspark ошибка: AttributeError: объект «SparkSession» не имеет атрибута «сериалайзер»

def f(l): 
    print(l.b_appid) 

sqlC=SQLContext(spark) 
mrdd = sqlC.read.parquet("hdfs://localhost:54310/yogi/device/processed//data.parquet") 
mrdd.forearch(f) <== this gives error

источник

2017-02-21 YS.

В Spark 2.X - для того, чтобы использовать Spark Session (ака spark), необходимо создать его

вы можете создать SparkSession так:

from pyspark.sql import SparkSession 

spark = SparkSession \ 
    .builder \ 
    .appName("Python Spark SQL basic example") \ 
    .getOrCreate()

После того как вы SparkSession объект (spark) вы можете использовать его как это:

mydf = spark.read.parquet("hdfs://localhost:54310/yogi/device/processed//data.parquet") 
mydf.forearch(f)

Более подробную информацию можно найти в Spark Sessions section in spark docs:

class pyspark.sql.SparkSession(sparkContext, jsparkSession=None)

The entry point to programming Spark with the Dataset and DataFrame API. A SparkSession can be used create DataFrame, register DataFrame as tables, execute SQL over tables, cache tables, and read parquet files. To create a SparkSession, use the following builder pattern:

spark = SparkSession.builder \ 
    .master("local") \ 
    .appName("Word Count") \ 
    .config("spark.some.config.option", "some-value") \ 
    .getOrCreate()

Информация о классе построитель можно найти в class Builder - Builder for SparkSession.

источник

2017-02-21 13:24:30 Yaron

pyspark ошибка: AttributeError: объект «SparkSession» не имеет атрибута «сериалайзер»

ответ

Смежные вопросы