2015-09-03 3 views
1

Я создаю приложение Apache Spark, которое должно быть выполнено в экземпляре EMR. Для этого я создаю кластер, и после этого я добавляю шаги в кластер для выполнения приложения Spark.Как установить s3cmd в экземпляр EMA Amazon

В приложении Spark Мне нужно выполнить операции чтения/записи в S3. Для взаимодействия со службами S3 мне необходимо установить s3cmd в экземпляр EMR. Кроме того, при создании ОГО кластера мне нужно установить и настроить s3cmd с помощью --bootstrap-приложения

Но мне нужна подробная информация о том, как установить и настроить s3cmd с помощью самозагрузки-приложения

Просьбы предоставить мне необходимую информацию о это

ответ

1

https://dbaumgartel.wordpress.com/2014/04/10/an-elastic-mapreduce-streaming-example-with-python-and-ngrams-on-aws/

дает пример толкая питон сценарии к S3 (с использованием s3cmd на локальном компьютере), которые используются в приложении ОГО. Затем вы отправляете исходные данные на S3, а приложения EMR ставят результаты в S3. Вы можете использовать s3cmd на локальном компьютере, чтобы вытащить исходные данные и загрузить результаты.

Если ваши исходные данные уже находятся в S3 или где-либо еще в AWS, вы всегда можете создать новый экземпляр EC2, в котором нужно запустить s3cmd, чтобы получить данные в правый ведро S3 для обработки.

0

Использование пользовательского бутстрапа.

«Bootstrap действия скрипты, которые выполняются на узлах кластера, когда Amazon EMR запускает кластер. Они работают до того Hadoop начинается и перед узлом начинает обрабатывать данные.»

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#bootstrapCustom

+0

положить команды, чтобы установить все программные обеспечения, необходимые в .sh загрузочного файла – Steve