2017-01-05 4 views
0

У меня есть искра dataframe, как показано нижеСформировать различные значения из столбца в свече dataframe

id|name|age|sub 
1 |ravi|21 |[M,J,J,K] 

Я не хочу, чтобы взорвать на колонке «суб», как это создаст еще один дополнительный набор строк. Я хочу генерировать уникальные значения из столбца «sub» и назначать его новому столбцу sub_unique.

Мой вывод должен быть как

id|name|age|sub_unique 
1 |ravi|21 |[M,J,K] 
+0

является 'sub' строкового столбца? может добавить схему dataframe? – mrsrinivas

ответ

0

Вы можете использовать udf

val distinct = udf((x: Seq[String]) => if (s != null) x.distinct else Seq[String]()) 

df.withColumn("subm_unique", distinct($"sub")) 
+0

Ваше решение не работает. Я получаю ниже ошибки при выполнении «Плоские хеш-таблицы не могут содержать нулевые элементы» –