2016-12-06 6 views
2

У меня есть следующий сценарий:Запуск искровой клиенты вне ОГО кластера и подключение к ПРЯЖАМ

  1. Я работаю в крупной корпорации.
  2. У нас есть кластер EMR со стеклом Spark/Hadoop, работающим на YARN.
  3. Я могу использовать SSH на главном узле кластера, и оттуда я могу создавать оболочки Spark или запускать задания в Spark-кластер без каких-либо проблем.
  4. Тем не менее, я хотел бы запустить клиент Spark на сервере моей компании, потому что вся наша база кода находится там, и я, таким образом, имею возможность делать активную разработку на этом сервере, так как я могу git clone и нажать на репозиторий, который сидит на сервере моей компании. Я не хочу передавать весь код компании на мастер-узел AWS для активной разработки.
  5. Итак, как мне изменить настройки Spark, чтобы использовать YARN AWS ​​в качестве менеджера ресурсов?
  6. Я попытался скопировать установку Spark (в /user/lib/spark) и HADOOP_CONF_DIR/etc/hadoop/conf) с главного узла кластера EMR на сервер моей компании, но Spark не распознает YARN.

Спасибо.

Редактирование: Изменен «водитель» на «клиент» в строке темы и в теле.

ответ

1

Это возможно в автономном режиме, но не в режиме пряжи.

Когда искра запускается в режиме пряжи, она не имеет контроля над тем, где будут сидеть исполнители, AM и водитель.

Пряжа проверяет использование памяти на каждом узле задачи и доступность данных и объединяет эти компоненты, где она вычисляется как идеальная.

Таким образом, даже если вам удастся добавить внешний узел в пряжу (вы можете это сделать), просто настройте правильную конфигурацию и запустите обновление администратора в менеджере ресурсов пряжи. Но, кроме того, вы не можете гарантировать, где будет работать ваш искровой драйвер.

Обновление Это вполне возможно. Вот что вам нужно сделать.

  1. Установка живого сервера. Это сервер связи Spark, основанный на отдыхе, который говорит с пряжей. Если у вас есть такие дистрибутивы, как cloudera или HDP, это просто вопрос нажатия кнопок в пользовательском интерфейсе.
  2. Установите GUI, например Zappelin или Apache Hue, и настройте его правильно для связи с живым сервером.

Ливийский сервер будет находиться в AWS на открытом порту, с которым может разговаривать ваша локальная система или внешний узел. Хюэ или Заппелин могут быть на вашем внешнем узле.

 Смежные вопросы

  • Нет связанных вопросов^_^