2011-01-06 3 views
2

Недавно я наткнулся на блог, в котором автор упомянул об интеграции Hbase и Hive. Будет ли это возможно, и если да, то в чем преимущество использования обоих (с точки зрения производительности и масштабируемости). Пожалуйста, поправьте меня, если я поступил не так.В чем преимущество интеграции Hbase и Hive

ответ

2

Я думаю, что это будет возможно, но не тривиально настроить немного - возможно, окончание CDH3 будет включать интеграцию, когда он выйдет.

Преимущества: запросы на улов по hbase. Подумайте о подключении и простой способ делать агрегаты и простые операции с данными HBase.

Почему бы не использовать Hive и не беспокоиться о HBase? HBase предоставляет масштабируемую инфраструктуру хранения данных, которая хранит данные в Интернете. StumbleUpon использует HBase для своего веб-сайта. Hive не является механизмом запросов в реальном времени, поэтому его хранилище данных не может использоваться для аналогичных целей. Улей над HBase дает вам преимущество обоих миров.

0

В настоящее время имеется патч, который позволяет загружать данные между HBase и Hive. Вы можете найти его здесь:

накладные

http://wiki.apache.org/hadoop/Hive/HBaseIntegration

Реализация выглядит довольно высокой.

Возможно, было бы проще запустить сканирование в таблице HBase и сохранить во внешний файл, а затем импортировать его в Hive для обработки данных. (Это также довольно громоздко, но если вы делаете это на регулярной основе, это может быть сценарий.) В настоящее время это решение, над которым я сейчас работаю. Я дам вам знать, как это происходит.

Что касается того, почему вы выбрали HBase over Hive, они не являются взаимозаменяемыми. HBase подразумевается как высоко масштабируемый хранилище данных, построенный на вершине Hadoop, без поддержки анализа данных. С другой стороны, Hive не используется для хранения данных в производственной среде, а скорее упрощает выполнение конкретных запросов по большим объемам данных.