Что я хотел бы сделать, это сделать метаданные рабочих процессов и работы, такие как дата начала, дата окончания и статус, доступные в таблице улей, которые будут использоваться инструментом BI для визуализации. Я хотел бы иметь возможность контролировать, например, если определенный рабочий процесс не работает в определенные часы, уровень успеха, ...Как выявить метаданные работы Hadoop и рабочего процесса с использованием Hive
Для этого мне нужен доступ к тем же данным, которые Hue может отображать в браузере работы и Oozie панель приборов. Например, я ищу специально для рабочих процессов: имя, податель заявки, статус, время начала и окончания. Причина, по которой я хочу это, заключается в том, что, на мой взгляд, этому инструменту не хватает общего обзора и хорошего поиска. Идея состоит в том, что как только я нахожу эти данные, я буду напрямую или через некоторые этапы обработки загружать их в Hive.
Вопросы, которые я хотел бы видеть ответил:
- ли эти данные, хранящиеся в HDFS или он рассеивается в локальных узлах данных?
- Если он хранится в HDFS. Где я могу найти его? Если он хранится в локальных узлах данных, как Hue находит и показывает это?
- Предполагая, что я могу получить доступ к данным. В каком формате я бы ожидал эти данные. Сохраняется ли это в общих файлах журнала или я могу ожидать несколько структурированных данных?
Я использую CDH 5.8