2016-12-29 15 views
4

В моем проекте мы используем Hadoop 2, Spark, Scala. Scala - это язык программирования, и Spark использует здесь для анализа. мы используем Hive и HBase оба. Я могу получить доступ ко всем деталям, таким как файл и т. Д. HDFS, используя Hive. Но мои неурядицы являются -Цель использования HBase в Hadoop вместо Hive

  1. Когда я в состоянии выполняемых всех заданий с использованием Hive, Тогда почему HBase требуется для хранения данных. Разве это не накладные расходы?
  2. Каковы функциональные возможности HIVE и HBase?
  3. Если мы использовали только Hive, то в чем проблема?

Может кто-нибудь, пожалуйста, дайте мне знать.

ответ

5
  1. Когда я в состоянии выполняемых всех заданий с использованием Hive, Тогда почему HBASE требуется для хранения данных. Разве это не накладные расходы?
  2. Каков функциональные Hive и Hbase

HBase есть нет Sql базы данных, которая хранит данные в ключевых парах значений. Hive имеет интеграцию с Hbase. Hbase HIve Integration

Преимущество: - Hive запросов по сравнению с HBase. Подумайте о подключении и простом способе делать агрегаты и простые операции с данными Hbase. Hbase предоставляет масштабируемую инфраструктуру хранения данных, которая хранит данные в Интернете. StumbleUpon использует Hbase для своего веб-сайта. Hive не является механизмом запросов в реальном времени, поэтому его хранилище данных не может использоваться для аналогичных целей. Hive более HBase дает вам преимущество обоих миров.

  1. Если мы использовали только Hive, то в чем проблема?

Если мы будем использовать Hive Там нет никаких проблем. Но в проекте так много сценариев, которые мы должны рассмотреть.

  • Performance
  • хранения
  • Устойчивость используемой технологии
  • Совместимость (Hive посуда дома легко доступны для большинства инструментов в Hadoop)
5

Когда я могу выполнять все задания с использованием Hive, то почему HBase , необходимые для хранения данных. Разве это не накладные расходы?

Я не могу сказать, что это накладные расходы или нет. Но HBase отвечает на запросы в режиме реального времени как свою базу данных, когда дело доходит до того, что Hive запускает задания в MapReduce/Spark/Tez.

Какова функциональность Hive и HBase?

Hive:

Это SQL-подобный язык, который транслируется в MapReduce/Спарк/рабочих мест Tez. он запускает только пакетные процессы на Hadoop. более проверить эту how Hive queries run on MapReduce engine

HBase:

Это ключ базы данных/значение магазин, который работает поверх HDFS/S3 (на AWS). Он выполняет операции в режиме реального времени для запросов.

Если мы использовали только Hive, то в чем проблема?

Как обсуждалось Если запрос необходимо обрабатывать в режиме реального времени, то HBase - это выбор по Hive.