У меня есть два больших dataframes [a], у которых есть все события, идентифицированные id [b] списком идентификаторов. Я хочу фильтровать [a] на основе идентификаторов в [b], используя реализацию stat.bloomFilter в искровом режиме 2.0.0Использование stat.bloomFilter в Spark 2.0.0 для фильтрации другого фрейма данных
Однако я не вижу никаких операций в API набора данных, чтобы присоединиться к фильтру цветения к данным frame [a]
val in1 = spark.sparkContext.parallelize(List(0, 1, 2, 3, 4, 5))
val df1 = in1.map(x => (x, x+1, x+2)).toDF("c1", "c2", "c3")
val in2 = spark.sparkContext.parallelize(List(0, 1, 2))
val df2 = in2.map(x => (x)).toDF("c1")
val expectedNumItems: Long = 1000
val fpp: Double = 0.005
val sbf = df.stat.bloomFilter($"c1", expectedNumItems, fpp)
val sbf2 = df2.stat.bloomFilter($"c1", expectedNumItems, fpp)
Каков наилучший способ фильтрации 'df1' на основе значений в df2?
Спасибо!