2017-02-05 4 views
-2

Как я попал в лимит ресурсов в моей программе Spark, я хочу разделить обработку на итерации и загрузить результаты с каждой итерации в HDFS, как показано ниже.Как обрабатывать два RDD серийно в Spark?

do something using first rdd 
upload the output to hdfs 

do something using second rdd 
upload the output to hdfs 

Но насколько я знаю, Спарк попытается запустить эти два параллельно. Есть ли способ дождаться обработки первого rdd, прежде чем обрабатывать второй rdd?

+0

Кто вам сказал, что искра попытается обработать оба RDD параллельно? Это неправильно! – eliasah

+0

Итак, это будет обрабатываться серийно? – pythonic

+3

Да! Если бы вы его протестировали, вы бы знали. – eliasah

ответ

0

Есть ли способ ждать обработок первого РДА, перед обработкой второго RDD

У вас есть РДД, так почему вы должны ждать и читать с диска снова?

Сделайте некоторые преобразования на RDD, напишите на диск в первом действии и продолжайте с того же RDD, чтобы выполнить второе действие.

+0

Можно сделать, но тогда мне нужно будет сделать больше изменений в моей программе. – pythonic

+1

Вы можете показать какой-то код, но «второй rdd», я предполагаю, что вы имели в виду, что он пришел с первого изначально –

1

Я думаю, что я понимаю, где вы в замешательстве. В пределах одного RDD разделы будут работать параллельно друг другу. Однако два RDD будут последовательно выполняться друг с другом (если вы не укажете иное).

 Смежные вопросы

  • Нет связанных вопросов^_^