У меня есть следующий сценарий:Запуск искровой клиенты вне ОГО кластера и подключение к ПРЯЖАМ
- Я работаю в крупной корпорации.
- У нас есть кластер EMR со стеклом Spark/Hadoop, работающим на YARN.
- Я могу использовать SSH на главном узле кластера, и оттуда я могу создавать оболочки Spark или запускать задания в Spark-кластер без каких-либо проблем.
- Тем не менее, я хотел бы запустить клиент Spark на сервере моей компании, потому что вся наша база кода находится там, и я, таким образом, имею возможность делать активную разработку на этом сервере, так как я могу git clone и нажать на репозиторий, который сидит на сервере моей компании. Я не хочу передавать весь код компании на мастер-узел AWS для активной разработки.
- Итак, как мне изменить настройки Spark, чтобы использовать YARN AWS в качестве менеджера ресурсов?
- Я попытался скопировать установку Spark (в
/user/lib/spark
) иHADOOP_CONF_DIR
(в/etc/hadoop/conf
) с главного узла кластера EMR на сервер моей компании, но Spark не распознает YARN.
Спасибо.
Редактирование: Изменен «водитель» на «клиент» в строке темы и в теле.