У меня есть кластер с узлами gpu (nvidia) и развернутый DC/OS 1.8. Я хотел бы включить, чтобы запланировать задания (партии и искры) на узлах gpu, используя изоляцию gpu. DC/OS основан на mesos 1.0.1, который поддерживает изоляцию gpu.Включить ресурсы графического процессора (CUDA) на DC/OS
ответ
Для того чтобы поддерживающие GPU ресурсы в DC/OS кластера необходимы следующие шаги:
Настройка Mesos агентов на GPU узлов:
1.1. Остановить ИДК-Mesos-slave.service:systemctl stop dcos-mesos-slave.service
1,2. Добавьте следующие параметры в /вар/Lib/DCOS/Mesos рабского общего файла:
# a comma separated list of GPUs (id), as determined by running nvidia-smi on the host where the agent is to be launched MESOS_NVIDIA_GPU_DEVICES="0,1"
# value of the gpus resource must be complied with number of ids above MESOS_RESOURCES= [ {"name":"ports","type":"RANGES","ranges": {"range": [{"begin": 1025, "end": 2180},{"begin": 2182, "end": 3887},{"begin": 3889, "end": 5049},{"begin": 5052, "end": 8079},{"begin": 8082, "end": 8180},{"begin": 8182, "end": 32000}]}} ,{"name": "gpus","type": "SCALAR","scalar": {"value": 2}}]
MESOS_ISOLATION=cgroups/cpu,cgroups/mem,disk/du,network/cni,filesystem/linux,docker/runtime,docker/volume,cgroups/devices,gpu/nvidia
1,3. Начало ИДК-Mesos-slave.service:
systemctl start dcos-mesos-slave.service
Включить возможность GPU_RESOURCES в рамках Mesos:
2,1. Марафон раму следует запускать с опцией
--enable_features "gpu_resources"
2.2. Aurora планировщик должен быть запущен с опцией
-allow_gpu_resource
Примечание.
Любой хост, на котором запущен агент Mesos с поддержкой Nvidia GPU, ДОЛЖЕН иметь действительный драйвер ядра Nvidia. Также настоятельно рекомендуется установить соответствующие библиотеки и инструменты пользовательского уровня, доступные как часть набора инструментов Nvidia CUDA. Многие задания, использующие графические процессоры Nvidia, полагаются на CUDA и не включают в себя, это сильно ограничит тип заданий, поддерживающих GPU, которые вы можете запускать на Mesos.
вы бы знали, как установить «--enable_features» gpu_resources «для марафона». И чтобы быть понятным, это касается марафона, встроенного в мезос, а не службы, которую вы можете запустить из вселенной правильно? –
В мезоне нет марафона. Существует марафон, встроенный в dcos. Вы можете создать автономную службу марафона в dcos, а также в автономном кластере мезо. Чтобы включить gpu_resources в марафоне: 1) автономный кластер mesos: добавьте в файл '/ etc/marathon/conf/enable_features' следующее:', gpu_resources'; 2) для dcos вам нужно отредактировать файл unit maradon systemd ('/ etc/systemd/system/dcos-marathon.service'), добавив параметр' --enable_features = "gpu_resources" 'в аргументы демона марафона (может быть лучший способ) – Kr0t
К сожалению, DC/OS официально не поддерживает графические процессоры в 1,8 (экспериментальной поддержки для графических процессоров будут приходить в следующем выпуске, как указано здесь: https://github.com/dcos/dcos/pull/766).
В этом следующем выпуске только марафон официально сможет запускать сервисы графического процессора (Metronome (т. Е. Пакетные задания) не будет).
Что касается искры, искровая версия в комплекте со Вселенной, вероятно, не имеет поддержки графического процессора для встроенного в Mesos. У искры есть это скоро: https://github.com/apache/spark/pull/14644
есть документ/ссылка, в которой говорится, что Metronome пока не поддерживает графические процессоры? Я не мог найти его. 1.9.1, похоже, не нуждается в этой поддержке. У нас также есть требование использовать запланированные задания вместо экземпляров, основанных на обслуживании, через марафон. – Dharmi
Было бы здорово, если бы вы могли расширить свой вопрос тем, что вы уже пробовали или нашли. –