Как я попал в лимит ресурсов в моей программе Spark, я хочу разделить обработку на итерации и загрузить результаты с каждой итерации в HDFS, как показано ниже.Как обрабатывать два RDD серийно в Spark?
do something using first rdd
upload the output to hdfs
do something using second rdd
upload the output to hdfs
Но насколько я знаю, Спарк попытается запустить эти два параллельно. Есть ли способ дождаться обработки первого rdd, прежде чем обрабатывать второй rdd?
Кто вам сказал, что искра попытается обработать оба RDD параллельно? Это неправильно! – eliasah
Итак, это будет обрабатываться серийно? – pythonic
Да! Если бы вы его протестировали, вы бы знали. – eliasah