Алгоритм локации данных об искры Апаче

Я хочу знать алгоритм, используемый для определения местоположения световой информации при планировании задачи? Нужен ли нам менеджер кластера, такой как YARN, если да, то каков основной алгоритм для планирования задач?Алгоритм локации данных об искры Апаче

источник

2016-01-24 openArrow

зависит от цели. Если ваши данные находятся в форме пар ключ-значение, чем Spark обрабатывает локальность данных через разделители (обычно путем хэширования ключа, но вы можете определить пользовательские разделители или использовать RangePartitioner для оптимизации вашей локальности в зависимости от ваших данных). Если вашим данным не присвоен ключ, обычно он просто держится за данные в каждом файле (что может быть проблематичным, если у вас мало больших файлов, так как вы не можете работать с оптимальным параллелизмом). Если ваши данные слишком распределены или слишком локализованы, вы можете соответственно использовать repartition (numPartitions) и объединить (numPartitions), чтобы оптимизировать количество разделов, с которыми вы хотите работать.

Вот пример того, как можно создать пользовательские разметки:

How to Define Custom partitioner for Spark RDDs of equally sized partition where each partition has equal number of elements?

источник

2016-01-25 01:44:33

Есть ли специальный алгоритм для оптимизации его искрой ?? – openArrow

Теперь я понимаю, что вы спрашиваете больше о системном уровне, а не о фактическом процессе программной оптимизации балансировки нагрузки. Эта страница должна иметь именно то, что вы ищете http://spark.apache.org/docs/latest/job-scheduling.html#scheduling-within-an-application –

Алгоритм локации данных об искры Апаче

ответ

Смежные вопросы