0

У меня есть dataframe с три колонки «х», «у» и «г»Как сделать математическую операцию с двумя колонки в dataframe с помощью pyspark

x  y   z 
bn  12452  221 
mb  14521  330 
pl  12563  160 
lo  22516  142 

Мне нужно создать еще один столбец, который получен путем эта формула

(m = z/y+z) 

Так что новые данные frameshould выглядеть примерно так:

x  y   z  m 
bn  12452  221  .01743 
mb  14521  330  .02222 
pl  12563  160  .01257 
lo  22516  142  .00626 

ответ

1
df = sqlContext.createDataFrame([('bn', 12452, 221), ('mb', 14521, 330)], ['x', 'y', 'z']) 
df = df.withColumn('m', df['z']/(df['y'] + df['z'])) 
df.head(2) 

 Смежные вопросы

  • Нет связанных вопросов^_^