2015-04-26 1 views
4

Когда я s, где находятся фактические данные, то есть данные, агрегированные по драйверу, а затем отправленные обратно на рабочие узлы или один из узлов, случайно выбранных для " получать "данные? Кроме того, если я вызываю partition на pairRDD, то это разметка, сделанная ключом автоматически?Apache Spark Разделение и присоединение к RDD

ответ

4

Нет, это не происходит через драйвер или любой отдельный узел. Происходит случайная перемена, при которой каждая из множества задач для исполнителей собирает все значения (от обоих родителей) для подмножества ключей. Задачи формируют продукт объединения для каждого ключа по мере его повторения. Разделение по ключевым словам. Соединение двух одинаково разделенных RDD выгодно, поскольку вы избегаете тасования.