pyspark collect_set или collect_list with groupby

Как я могу использовать collect_set или collect_list на dataframe после groupby. например: df.groupby('key').collect_set('values'). Я получаю ошибку: AttributeError: 'GroupedData' object has no attribute 'collect_set' pyspark collect_set или collect_list with groupby

источник

2016-06-02 Hanan Shteingart

Можете ли вы опубликовать некоторые данные примера, которые будут вызывать эту ошибку, чтобы мы могли отладить вашу проблему? –

Вам необходимо использовать agg. Пример:

from pyspark import SparkContext 
from pyspark.sql import HiveContext 
from pyspark.sql import functions as F 

sc = SparkContext("local") 

sqlContext = HiveContext(sc) 

df = sqlContext.createDataFrame([ 
    ("a", None, None), 
    ("a", "code1", None), 
    ("a", "code2", "name2"), 
], ["id", "code", "name"]) 

df.show() 

+---+-----+-----+ 
| id| code| name| 
+---+-----+-----+ 
| a| null| null| 
| a|code1| null| 
| a|code2|name2| 
+---+-----+-----+

Примечание. В приведенном выше вы должны создать HiveContext. См. https://stackoverflow.com/a/35529093/690430 для работы с различными версиями Spark.

(df 
    .groupby("id") 
    .agg(F.collect_set("code"), 
     F.collect_list("name")) 
    .show()) 

+---+-----------------+-----------------+ 
| id|collect_set(code)|collect_list(name)| 
+---+-----------------+-----------------+ 
| a| [code1, code2]|   [name2]| 
+---+-----------------+-----------------+

источник

2016-06-27 21:01:50 ksindi

ответ

Смежные вопросы