2016-03-07 3 views
0

Я недавно натолкнулся на Apache Kylin, и мне было любопытно, что это прецеденты. Из того, что я могу сказать, это инструмент, предназначенный для решения очень специфических проблем, связанных с более чем 10 миллиардами строк, агрегированием, кэшированием и запросами данных из других источников (HBase, Hadoop, Hive). Правильно ли я в этом предположении?Что такое случаи использования Apache Kylin?

+0

Посмотрите на: http://www.ebaytechblog.com/2014/10/20/announcing-kylin-extreme-olap-engine-for-big-data/ –

+0

Это не дает общие варианты использования, скорее объясняет, как Ebay использовал его (как ebay разработал инструмент в первую очередь), так и архитектуру продукта. –

ответ

0

Использование Apache Kylin - интерактивный большой анализ данных на Hadoop. Он позволяет вам запрашивать большие таблицы Hive на второй секунде в 3 простых шага.

  1. Определить набор таблиц улья в схеме звезд.
  2. Создайте куб из таблиц Hive в автономном пакетном процессе.
  3. Запросить таблицы улья, используя SQL, и получить результаты в подсеансах, через Rest API, ODBC или JDBC.

Практический пример довольно общий, что он может быстро запросить любые таблицы Hive, если вы можете определить звездную схему и кубы модели из таблиц. Проверьте Kylin terminologies, если вы не уверены, что такое схема звезд и что такое куб.

Kylin предоставляет интерфейс ANSI SQL, поэтому вы можете запрашивать таблицы Hive почти так же, как вы привыкли. Однако одно ограничение заключается в том, что Kylin предоставляет только агрегированные результаты, или, другими словами, SQL должен содержать предложение «group by» для получения правильного результата. Это обычно прекрасно, потому что большой анализ данных больше ориентирован скорее на агрегированные результаты, чем на отдельные записи.

+0

Будет ли использоваться следующий прецедент? a) Создайте схему звезд с помощью HiveQL b) Загрузите данные в Hadoop с помощью соединителя Hive c) Kylin будет обрабатывать отображение схемы Hive в схему куба и выполнение Map/Reduce through HiveQL d) Вывести результаты запрос к HBase e) Используйте Kylin для выполнения операторов SQL через Calcite для HBase и возврата результатов в виде JSON. –

+0

Очень близко! Просто обратите внимание, что шаг c) является ручным, сопоставление от схемы Hive к схеме куба является ручной, Kylin предоставляет графический интерфейс для вас. Также шаг d) вывод не является специфическим для любого запроса, а является общим индексом данных Hive, который мы называем индексом «cube». –