Понимание менеджеров в случайном порядке в Spark

Позвольте пояснить около shuffle in depth и как Spark использует shuffle руководителей. Сообщить некоторые очень полезные ресурсы:Понимание менеджеров в случайном порядке в Spark

Читая их, я понял, есть разные менеджеры перетасовать. Я хочу сосредоточиться на двух из них: hash manager и sort manager (который является менеджером по умолчанию).

Для разоблачить мой вопрос, я хочу начать с самим общим преобразования:

val rdd = reduceByKey(_ + _)

Это преобразование вызывает агрегацию карты стороны, а затем перетасовать для чего всех одинаковых ключей в том же раздел ,

Мои вопросы:

ли агрегация Map-Side реализуется с помощью внутренней трансформации mapPartition и, таким образом, агрегацию все те же клавиши, используя функцию объединителя или он реализуется с помощью AppendOnlyMap или ExternalAppendOnlyMap?
Если AppendOnlyMap или ExternalAppendOnlyMap карты используются для объединения, они используются также для уменьшения боковой агрегации, что происходит в ResultTask?
Какова цель этих двух видов карт (AppendOnlyMap или ExternalAppendOnlyMap)?
Есть AppendOnlyMap или ExternalAppendOnlyMap используется от всех менеджеров shuffle или только от sortManager?
Я прочитал, что после AppendOnlyMap или ExternalAppendOnlyMap сыты, которые пролитой в файл, как именно это произойдет шаги?
Используя диспетчер сортировки Shuffle, мы используем appendOnlyMap для агрегирования и объединения записей разделов, правильно? Затем, когда исполняемая память заполняется, мы начинаем сортировку карты, проливая ее на диск, а затем очищаем карту, мой вопрос: в чем разница между разливом на диск и перетасовкой? Они состоят в основном в создании файла в локальной файловой системе, но они обрабатываются по-разному, Shuffle записывают записи, не помещаются в appendOnlyMap.
Можете ли вы объяснить в глубину Что происходит при выполнении reduceByKey, объясняя мне все шаги, связанные с этим? Например, все шаги для агрегации карты, перетасовки и т. Д.

источник

2017-01-11 Giorgio

@JacekLaskowski Вы являетесь экспертом в Спарк перетасовки;) –

Также @ 0x0FFF является экспертом в Спарк перетасовки – Giorgio

Отсюда следует описание reduceByKey шаг за шагом:

reduceByKey вызовы combineByKeyWithTag, с единицей объединителя и одинаковым значением слияния и создания стоимости
combineByKeyWithClassTag создает Aggregator и возвращает ShuffledRDD. Оба «map» и «уменьшить» побочные агрегаты используют внутренний механизм и не используют mapPartitions.
Agregator использует ExternalAppendOnlyMap как для combineValuesByKey ("карты уменьшения бокового") и combineCombinersByKey ("уменьшить снижение на сторону")
Оба метода использует ExternalAppendOnlyMap.insertAllMethod
ExternalAppendOnlyMapkeeps track of spilled parts и текущая карта памяти (SizeTrackingAppendOnlyMap)
insertAll обновляет карту памяти и checks on insert, если размер расчетной величины текущей карты превышает пороговое значение. Он использует унаследованный метод Spillable.maybeSpill. Если порог превышен, этот метод вызывает spill as a side effect, а insertAll инициализирует чистый SizeTrackingAppendOnlyMap
spill вызывает spillMemoryIteratorToDisk which gets DiskBlockObjectWriter object от менеджера блока.

insertAll шагов применяются для оба карты и уменьшить побочные агрегаты с соответствующими Aggregator функции с этапом в случайном порядке между ними.

На Спарк 2.0 есть своего рода основаны только менеджер: SPARK-14667

источник

2017-01-11 15:06:23 user7337271

Понимание менеджеров в случайном порядке в Spark

ответ

Смежные вопросы