Компенсация вычислений Pyspark

Я хочу использовать функцию pyspark.mllib.stat.Statistics.corr для вычисления корреляции между двумя столбцами объекта pyspark.sql.dataframe.DataFrame. corr Функция рассчитывает принять rdd из Vectors объектов. Как перевести столбец df['some_name'] в rdd из Vectors.dense объект?Компенсация вычислений Pyspark

источник

2016-06-03 VJune

Не должно быть необходимости в этом. Для численного можно вычислить корреляцию непосредственно с помощью DataFrameStatFunctions.corr:

df1 = sc.parallelize([(0.0, 1.0), (1.0, 0.0)]).toDF(["x", "y"]) 
df1.stat.corr("x", "y") 
# -1.0

иначе вы можете использовать VectorAssembler:

from pyspark.ml.feature import VectorAssembler 

assembler = VectorAssembler(inputCols=df.columns, outputCol="features") 
assembler.transform(df).select("features").flatMap(lambda x: x)

источник

2016-06-03 16:19:35 zero323

Он поддерживает только Пирсона. – VJune

Хорошо, я понял это:

v1 = df.flatMap(lambda x: Vectors.dense(x[col_idx_1])) 
v2 = df.flatMap(lambda x: Vectors.dense(x[col_idx_2]))

источник

2016-06-03 16:21:22 VJune

ответ

Смежные вопросы