У меня есть скрипт R, работающий в локальной среде: каждая запись/строка подается в функцию func для выполнения некоторых вычислений. поэтому поток выглядит следующим образом.Как использовать sparkR для параллельных вычислений на разных кластерах?
new <- lapply(old, func)
В идеале, используя sparkR, я бы ожидать, каждый работник имеет функцию FUNC и выполнять вычисления на подмножестве «старого». В этом случае func очень прост и может быть рассчитан локально (нет необходимости в распределенной версии этой функции).
Кто-нибудь знает, как достичь этого при использовании SparkR? В основном возникает вопрос, есть ли какая-либо поддержка в SparkR, функционирующая как допараллельная, но у нескольких работников.
в основном, речь идет о «есть ли поддержка в SparkR функционирует как doparallel, но на нескольких рабочих» – HappyCoding
Вы хотите сделать карту? Если да, см. Http://stackoverflow.com/questions/31012765/how-to-do-map-and-reduce-in-sparkr –