apache-spark

1зной

1ответ

Искра группеПо AGG не работает, как ожидалось

я получаю подобный вопрос: (df .groupBy("email") .agg(last("user_id") as "user_id") .select("user_id").count, df .groupBy("email") .agg(last("user_id") as "user_id") .se

1зной

1ответ

Спарк dataframe Requery при преобразовании в РДД

У меня есть dataframe сомнение в val df1 = sqlContext.sql("select * from table1 limit 1") df1.cache() df1.take(1) scala> Array[org.apache.spark.sql.Row] = Array([10,20151100-0000,B95A,293759,0,7698

15зной

3ответ

Как агрегировать значения в коллекцию после groupBy?

У меня есть dataframe со схемой, как, например: [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Ищете способ группы (или, может быть Rollup?) Это dataframe по visitorid где

«
992
993
994
995
996
997
998
999
1000
»