2017-02-15 22 views
2

У нас есть кластер Hadoop, работающий на экземплярах EC2 и EC2, прикрепленных к роли, которая имеет доступ к ведро S3, например: «stackoverflow-example».Каков правильный способ предоставления доступа к базе данных Hadoop/Spark IAM для S3?

Несколько пользователей размещают задания Spark в кластере, мы использовали ключи в прошлом, но не хотим продолжать и хотим перейти на роль, поэтому любые задания, размещенные в кластере Hadoop, будут использовать роль, связанную с экземплярами ec2. Много искал и нашел 10+ билетов, некоторые из них все еще открыты, некоторые из них исправлены, а некоторые из них не имеют комментариев.

Хотите узнать, можно ли использовать роль IAM для заданий (Spark, Hive, HDFS, Oozie и т. Д.), Размещая на кластере Hadoop. В большинстве руководств обсуждается ключ передачи (fs.s3a.access.key, fs.s3a.secret.key), который недостаточно хорош и не защищен. Мы также столкнулись с проблемами с провайдером учетных данных с Ambari.

Некоторые ссылки:

https://issues.apache.org/jira/browse/HADOOP-13277

https://issues.apache.org/jira/browse/HADOOP-9384

https://issues.apache.org/jira/browse/SPARK-16363

+0

Вы используете EMR для запуска кластеров или управления собой, только роли IAM отлично работают с сервисом EMR? – Blakey

ответ

1

Это первый один связывании Hadoop-13277 говорит, что "мы можем иметь IAM?" к которому JIRA была закрыта «у вас это в s3a». Второй, HADOOP-9384, был «добавить IAM в S3n», закрыт как «переключиться на s3a». И SPARK-16363? неполный bugrep.

Если вы используете S3a и не устанавливают никаких секретов, то клиент S3A вернется к глядя на специальный экземпляр EC2 сервер HTTP метаданные, и попытаться получить секреты оттуда.

Это он: он должен просто работать.