У меня есть dataframe в искры, как показано нижеКак сравнить каждое значение с любым другим значением в pyspark?
a b
(21 , 23)
(23 , 21)
(22 , 21)
(21 , 22)
Я хочу dataframe, который должен выглядеть следующим образом: -
(21 , 22)
(21 , 23)
(22 , 21)
(22 , 23)
(23 , 21)
(23 , 22)
Поэтому следует рассмотреть все возможные комбинации для обеих колонок. Как это можно достичь?
Я пробовал декартово соединение, но он занимает слишком много времени для очень небольшого набора данных. Есть и другие альтернативы?
Спасибо.