Я совершенно новичок в pysparks и rdd. Я пытаюсь понять, как работает rdd, и у меня возникают проблемы с доступом к части данных в rdd. Я хотел бы выбрать несколько столбцов из существующего rdd и создать новый rdd.Создание нового rdd из другого rdd в Python
Пример ниже:
user_rdd = [Row(id=u'1', first_name=u'Steve', last_name=u'Kent', email=u'[email protected]'),Row(id=u'2', first_name=u'Margaret', last_name=u'Peace', email=u'[email protected]')]
display(user_rdd)
| email | first_name | id | last_name
| [email protected] | Steve | 1 | Kent
| [email protected] | Margaret | 2 | Peace
Как выбрать 2 колонки из user_rdd и создать новый RDD, как показано ниже?
| id | first_name | last_name | full_name
| 1 | Steve | Kent | Steve Kent
| 2 | Margaret | Peace | Margaret Peace