Есть ли какая-либо связь между количеством элементов, содержащихся в RDD, и его идеальным количеством разделов?Spark Существует ли какое-либо эмпирическое правило об оптимальном числе разбиений RDD и его количестве?
У меня есть RDD, у которого есть тысячи разделов (потому что я загружаю его из исходного файла, состоящего из нескольких небольших файлов, это противоречие, которое я не могу исправить, поэтому мне приходится иметь дело с ним). Я хотел бы переделать его (или использовать метод coalesce
). Но я не знаю заранее, какое количество событий будет содержать RDD.
Так что я хотел бы сделать это автоматическим способом. То, что будет выглядеть следующим образом:
val numberOfElements = rdd.count()
val magicNumber = 100000
rdd.coalesce(numberOfElements/magicNumber)
Есть ли правило об оптимальном количестве перегородки РДА и его количества элементов?
Спасибо.