Как обрабатывать два RDD серийно в Spark?

-2

Как я попал в лимит ресурсов в моей программе Spark, я хочу разделить обработку на итерации и загрузить результаты с каждой итерации в HDFS, как показано ниже.Как обрабатывать два RDD серийно в Spark?

do something using first rdd 
upload the output to hdfs 

do something using second rdd 
upload the output to hdfs

Но насколько я знаю, Спарк попытается запустить эти два параллельно. Есть ли способ дождаться обработки первого rdd, прежде чем обрабатывать второй rdd?

источник

2017-02-05 pythonic

Кто вам сказал, что искра попытается обработать оба RDD параллельно? Это неправильно! – eliasah

Итак, это будет обрабатываться серийно? – pythonic

Да! Если бы вы его протестировали, вы бы знали. – eliasah

Есть ли способ ждать обработок первого РДА, перед обработкой второго RDD

У вас есть РДД, так почему вы должны ждать и читать с диска снова?

Сделайте некоторые преобразования на RDD, напишите на диск в первом действии и продолжайте с того же RDD, чтобы выполнить второе действие.

источник

2017-02-05 19:14:56

Можно сделать, но тогда мне нужно будет сделать больше изменений в моей программе. – pythonic

Вы можете показать какой-то код, но «второй rdd», я предполагаю, что вы имели в виду, что он пришел с первого изначально –

Я думаю, что я понимаю, где вы в замешательстве. В пределах одного RDD разделы будут работать параллельно друг другу. Однако два RDD будут последовательно выполняться друг с другом (если вы не укажете иное).

источник

2017-02-05 19:43:50

Как обрабатывать два RDD серийно в Spark?

ответ

Смежные вопросы