Я работаю над решением NRT, которое требует от меня часто обновлять метаданные таблицы Impala.Invalidate metadata/refresh imapala от искрового кода
В настоящее время это аннулирование выполняется после запуска моего искрового кода. Я хотел бы ускорить процесс, выполнив это обновление/аннулирование непосредственно из моего кода искры.
Какой был бы наиболее эффективный подход?
- Oozie не слишком медленно (30 сек накладных расходов? Нет, спасибо)
- SSH действие на (край) узел кажется правильным решением, но чувствует себя «хак»
- я не вижу способ сделать это из контекста улья в Spark.
О Spark 'HiveContext': он позволяет заданию взаимодействовать с Hive ** Metastore ** в режиме клиент/сервер. Но он совершенно не знает, что другие задания делают против Metastore одновременно, то есть другие задания Spark, задания Pig, запросы Impala, запросы CLI в Hive, запросы HiveServer2, сеансы просмотра Hue ... –