Я был бы очень признателен, если бы кто-то мог ответить на эти несколько вопросов, связанных с shuffle, в упрощенном виде.Понимание случайного и повторного образования в искры
В искры при загрузке набора данных указывается количество разделов, указывающее, сколько блоков необходимо разделить входным данным (RDD) и на основе количества разделов, равное количество запускаются задачи (правильно, если предположение неверно) .for X Число ядер в рабочем узле. Соответствует X Количество задач, выполняемых за один раз.
Вдоль подобных линий, вот несколько вопросов.
Поскольку все операции byKey вместе с объединением, перераспределением, объединением и cogroup приводят к перетасовке данных.
Является ли данные перетасовкой другого имени для операции перераспределения?
Что происходит с начальными разделами (количество объявленных разделов) при перераспределениях.
Может ли кто-нибудь привести пример (объясните), как происходит перемещение данных по всему кластеру. Я видел пару примеров, где показано случайное стрелочное перемещение клавиш (но не знаю, как движется движение), например если мы уже имеем данные в 10 разделах, выполняет ли операция переразделения сначала все данные, а затем отправляет конкретный ключ в конкретный раздел на основе хэш-кода% numberofpartitions.