Как создать новый DataFrame в sparkR

В sparkR У меня data как DataFrame. можно прикрепить одну запись в data так:Как создать новый DataFrame в sparkR

newdata <- filter(data, data$column == 1)

Как я могу приложить больше, чем просто один?
Скажите, что я хочу прикрепить все элементы в векторе list <- c(1,6,10,11,14) или если list является DataFrame 1 6 10 11 14.

newdata <- filter(data, data$column == list)

Если я сделаю это, я получаю сообщение об ошибке.

источник

2015-07-31 Ole Petersen

Если вы в конечном счете пытаетесь отфильтровать искровой DataFrame по списку уникальных значений, вы можете сделать это с помощью операции merge. Если вы говорите о переходе от длинного к широкому формату данных, вам необходимо убедиться, что существует такое же количество наблюдений для каждого «уровня» факторной переменной, которую вы рассматриваете. Если вы хотите подмножать строку данных Spark по столбцам, вы также можете использовать оператор select или создать инструкцию select, вставив данные $ blah в, а затем введите eval(parse(text=bigTextObject)) в качестве предложенного @Wannes. Возможно, функция, которая генерирует большой оператор select, - это то, что вы хотите (если вы фильтруете по имени столбца) ... merge - это то, что вы хотите, если пытаетесь извлечь значения из одного столбца.

Из того, что я понимаю, кажется, что вы хотите взять большой Spark DataFrame с большим количеством столбцов и принимать только те, которые вас интересуют, как указано list в вашем вопросе.

Вот небольшая функция для создания искры select заявление:

list<- c(1,2,5,8,90,200) 
listWithDataPrePended<- paste0('data', '$', list) 
gettingCloser<- noquote(paste0(listWithDataPrePended, collapse = ',')) 
finalSelectStatement<- noquote(paste("select(data,", gettingCloser, ")")) 
finalData<- eval(parse(text=finalSelectStatement)) 
finalData<- SparkR::collect(finalData)

Может быть, это то, что вы ищете ... возможно нет. Тем не менее, я надеюсь, что это будет полезно.

Успехов, Нейт

источник

2017-07-19 18:19:58 nate

Список == не будет работать, ни% в списке%, что имело бы больше смысла, но вы можете сделать это следующим образом (я включил пример data.frame):

dataLocal <- data.frame(column=c(rep(1,10),rep(2,10),rep(3,10)),column2=1:30) 
data  <- createDataFrame(sqlContext,dataLocal) 
newdata <- filter(data, (data$column == 1)|(data$column == 2))

или более в целом (теперь ваш песни2 может быть произвольной длины)

list2 <- c(1,2) 
listEquals <- paste("(data$column == ",list2,")",sep="") 
checkEquals <- paste(listEquals,collapse="|") 
func <- paste("filter(data, ",checkEquals,")",sep="") 
newdata <- eval(parse(text=func))

не забудьте запустить

collect(newdata)

проверить результат.

источник

2015-07-31 11:03:54

Все это прекрасно работает для вектора «list2» с малой длиной. Но если у нас есть вектор «list2», где length (list2) = 10000, я получаю это сообщение в sparkR: ошибка при оценке аргумента «условие» при выборе метода для функции «фильтр»: Ошибка: оценка слишком сложна: бесконечная рекурсия/options (выражения =)? –

ответ

Смежные вопросы