2016-12-06 5 views
0

Приложение Apache Spark принимает различные входные файлы и сохраняет результаты и журналы в других файлах. Входные файлы предоставляются вместе с приложением, которое должно работать в облаке Amazon (EMR представляется предпочтительным для EC2).Как получить файлы с amazon emr?

Теперь я знаю, что я должен создать uber-jar, содержащий мои входные файлы и приложение, которое обращается к ним. Однако как я могу получить сгенерированные файлы из облака после завершения выполнения?

В качестве дополнительной информации файлы создаются и записываются с использованием относительных путей из кода.

ответ

0

Предполагая, что вы хотите получить доступ к выходному сигналу, созданному приложением Spark вне кластера, обычно нужно записать его на S3. Тогда вы, конечно, можете читать данные непосредственно с S3 вне кластера EMR.

+0

Это означает, что мне нужно будет инициализировать мое приложение с помощью пути S3? Например, PrintWriter writer = new PrintWriter ("s3: \\ log \\ logfile.txt", "UTF-8"). – user3209815