Я пытаюсь разбить DataFrame (DF), B
на два разных (по строкам) подмножества. Я сначала sample
DF, чтобы произвести новый DF, который включает прибл. половина строк от B
. Затем я пытаюсь filter
на DF с условием, что этот новый DF, b2
включает в себя каждую строку B
с z
значений, которые не равно к z
ценности, включенной в b1
.Ссылка на два отдельных DataFrames в операциях SparkR
Кажется, что это должно быть довольно просто. Однако выражение filter
просто приводит к пустой DataFrame. Я неправильно понимаю синтаксис для filter
, или вы можете просто не ссылаться на отдельные DataFrames в операциях SparkR?
w <- rbind(3, 0, 2, 3, NA, 1)
z <- rbind("a", "b", "c", "d", "e", "f")
d2 <- cbind.data.frame(w, z)
B <- as.DataFrame(sqlContext, d2)
b1 <- sample(B, FALSE, 0.5)
b2 <- filter(B, B$z != b1$z)
Это сработало! Благодарю. – kathystehl