0

Я использую pySpark для вычисления матриц на группы. Похоже, что вычисление будет быстрее, если Spark сохранит строки данной группы на одном узле, поэтому Spark может вычислить каждую матрицу локально. Боюсь, что взаимодействие между узлами может занять гораздо больше времени.pySpark: возможно ли groupBy() с одним единственным узлом на группу?

Do map() и groupBy() обычно достигают такого рода вещей? Должен ли я попытаться указать его как вариант, если это возможно?

NB. Матрицы включают вычисление расстояния между каждой строкой и предыдущей, в каждой (отсортированной) группе.

ответ

0

Я думаю, вы просили mapPartitions(). Затем операция выполняется локально в каждом разделе.