Итак, мы планируем использовать EMR, который будет работать в течение нескольких часов в дневных данных процесса, и кластер будет прекращен после завершения обработки.Как восстановить журналы oozie/sqoop в Hue на EMR после того, как кластер завершился?
На обычной установке cloudera (или Hortonworks), когда мы запускаем работу oozie, мы можем отчетливо видеть журналы в Hue, и они где-то сохраняются. Итак, есть ли способ EMR, где мы можем сохранить эти журналы на s3 и как только новый кластер будет запущен и запущен, подключите эти сохраненные журналы обратно из s3 в Hue в новом кластере.
Пожалуйста посоветуйте
Это «где-то» может быть база данных SQL, которую Oozie использует как фоновый. Не уверен, запускает ли EMR фиктивный экземпляр DerbyDB по умолчанию или использует более надежное решение (например, MySQL или PostgreSQL). Итак, теперь вы должны узнать точную технологию, точные параметры подключения, чтобы напрямую добраться до этой БД, и, наконец, способ сбросить содержимое БД где-то до того, как ваш кластер завершится. –