На основании предыдущих вопросов: 1, 2. Предположим, у меня есть следующий dataframe:PySpark добавить новый столбец в dataframe с новым списком
df = spark.createDataFrame(
[(1, "a", 23.0), (3, "B", -23.0)],
("x1", "x2", "x3"))
И я хочу, чтобы добавить новый столбец x4
, но у меня есть значение в списке Python вместо того, чтобы добавить новый столбец, например x4_ls = [35.0, 32.0]
. Есть ли лучший способ добавить новый столбец в фреймворк Spark? (примечание что я использую Спарк 2.1)
Выход должен быть что-то вроде:
## +---+---+-----+----+
## | x1| x2| x3| x4|
## +---+---+-----+----+
## | 1| a| 23.0|35.0|
## | 3| B|-23.0|32.0|
## +---+---+-----+----+
Я также могу превратить мой список dataframe df_x4 = spark.createDataFrame([Row(**{'x4': x}) for x in x4_ls])
(но я не знаю, как конкатенировать dataframe вместе)
Похоже, что нет простого способа конкатенации данных или добавления значений в dataframe прямо сейчас. – titipata