У нас есть кластер Hadoop, работающий на экземплярах EC2 и EC2, прикрепленных к роли, которая имеет доступ к ведро S3, например: «stackoverflow-example».Каков правильный способ предоставления доступа к базе данных Hadoop/Spark IAM для S3?
Несколько пользователей размещают задания Spark в кластере, мы использовали ключи в прошлом, но не хотим продолжать и хотим перейти на роль, поэтому любые задания, размещенные в кластере Hadoop, будут использовать роль, связанную с экземплярами ec2. Много искал и нашел 10+ билетов, некоторые из них все еще открыты, некоторые из них исправлены, а некоторые из них не имеют комментариев.
Хотите узнать, можно ли использовать роль IAM для заданий (Spark, Hive, HDFS, Oozie и т. Д.), Размещая на кластере Hadoop. В большинстве руководств обсуждается ключ передачи (fs.s3a.access.key, fs.s3a.secret.key), который недостаточно хорош и не защищен. Мы также столкнулись с проблемами с провайдером учетных данных с Ambari.
Некоторые ссылки:
https://issues.apache.org/jira/browse/HADOOP-13277
https://issues.apache.org/jira/browse/HADOOP-9384
https://issues.apache.org/jira/browse/SPARK-16363
Вы используете EMR для запуска кластеров или управления собой, только роли IAM отлично работают с сервисом EMR? – Blakey