Я хочу знать алгоритм, используемый для определения местоположения световой информации при планировании задачи? Нужен ли нам менеджер кластера, такой как YARN, если да, то каков основной алгоритм для планирования задач?Алгоритм локации данных об искры Апаче
ответ
зависит от цели. Если ваши данные находятся в форме пар ключ-значение, чем Spark обрабатывает локальность данных через разделители (обычно путем хэширования ключа, но вы можете определить пользовательские разделители или использовать RangePartitioner для оптимизации вашей локальности в зависимости от ваших данных). Если вашим данным не присвоен ключ, обычно он просто держится за данные в каждом файле (что может быть проблематичным, если у вас мало больших файлов, так как вы не можете работать с оптимальным параллелизмом). Если ваши данные слишком распределены или слишком локализованы, вы можете соответственно использовать repartition (numPartitions) и объединить (numPartitions), чтобы оптимизировать количество разделов, с которыми вы хотите работать.
Вот пример того, как можно создать пользовательские разметки:
Есть ли специальный алгоритм для оптимизации его искрой ?? – openArrow
Теперь я понимаю, что вы спрашиваете больше о системном уровне, а не о фактическом процессе программной оптимизации балансировки нагрузки. Эта страница должна иметь именно то, что вы ищете http://spark.apache.org/docs/latest/job-scheduling.html#scheduling-within-an-application –