У меня есть JSon структуру, как это:несколько скоплений на вложенной структуры в одном операторе Спарк
{
"a":5,
"b":10,
"c":{
"c1": 3,
"c4": 5
}
}
У меня есть dataframe, созданный из этой структуры с несколькими миллионами строк. Мне нужно агрегирование в нескольких таких ключах:
df.agg(count($"b") as "cntB", sum($"c.c4") as "sumC")
Я просто пропустил синтаксис? Или есть другой способ сделать это? Самое важное Spark должен только сканировать данные один раз для всех агрегатов.
Спасибо, вы правы. Просто нашел свою ошибку. Часть «c» данных является разреженной, и во время разбора она была распознана как строка из-за неправильного форматирования входных данных. – Marko