2016-11-07 16 views
0

Итак, мы планируем использовать EMR, который будет работать в течение нескольких часов в дневных данных процесса, и кластер будет прекращен после завершения обработки.Как восстановить журналы oozie/sqoop в Hue на EMR после того, как кластер завершился?

На обычной установке cloudera (или Hortonworks), когда мы запускаем работу oozie, мы можем отчетливо видеть журналы в Hue, и они где-то сохраняются. Итак, есть ли способ EMR, где мы можем сохранить эти журналы на s3 и как только новый кластер будет запущен и запущен, подключите эти сохраненные журналы обратно из s3 в Hue в новом кластере.

Пожалуйста посоветуйте

+0

Это «где-то» может быть база данных SQL, которую Oozie использует как фоновый. Не уверен, запускает ли EMR фиктивный экземпляр DerbyDB по умолчанию или использует более надежное решение (например, MySQL или PostgreSQL). Итак, теперь вы должны узнать точную технологию, точные параметры подключения, чтобы напрямую добраться до этой БД, и, наконец, способ сбросить содержимое БД где-то до того, как ваш кластер завершится. –

ответ

0

По умолчанию кластеры Amazon EMR запускается с помощью консоли автоматически архивных файлов журналов на Amazon S3. Вы можете указать свой собственный путь к журналу, или вы можете разрешить консоли автоматически генерировать для вас путь к журналу.

Почти все журналы в каталоге/mnt/var/log/всех узлов EMR будут непрерывно перемещаться на S3 для постоянного хранения. Сюда входят журналы приложений, такие как OOZIE/SQOOP.

s3 префикс для приложений должны быть как

OOZIE: /j-3GL0155VMY123/node/i-f0954123/applications/oozie/

catalina.2016-11-15.log.gz 
catalina.out.gz 
derby.log.gz 
oozie-error.log.gz 
oozie-instrumentation.log.gz 
oozie-jpa.log.gz 
oozie-ops.log.gz 
oozie.log.gz 

Где J-3GL0155VMY123 является ЭМИ Кластерный идентификатор, я-f0954123 является экземпляром-идентификатор ведущего/ядра ,

Если вас беспокоят журналы контейнеров, вы можете посмотреть префикс /j-3GL0155VMY123/containers/.