Я хочу, чтобы рассчитывать отдельные элементы столбца SparkR (из более dataframe SparkR):Почему countDistinct/n_distinct в столбце SparkR не работает?
df$col1
1
2
2
5
6
5
различные элементы: 1,2-5,6
Когда я пытаюсь countDistinct на моем SparkR колонке, я только получите этот результат:
> countDistinct(df$col1)
Column count(col1)
Должен ли я использовать функцию agg? Я попытался, но не смог, потому что он не работает в столбцах.
Спасибо! Я думал, что countDistinct уже приведет к действию, но это всего лишь трансформация. –
На самом деле 'countDistinct' даже не является преобразованием. Даже если вы вызываете его на 'df $ col1', он не привязан к каким-либо конкретным данным. – zero323
Да, вы правы. Я хотел сказать, что это только описание того, что произойдет с данными во время действия. –