2016-11-29 7 views
1

Привет У меня есть таблица hive на HBASE, которая имеет 200 гб записей. Я запускаю простой запрос на улей, чтобы получить 20-граммовые записи. Но это занимает около 4 часов. Я не могу создать раздел на таблице HIVE, потому что он интегрирован на HBASE.Запрос на получение информации о ВИЧ-инфекции занимает очень много времени, чтобы получить 20-граммовые записи

Просьба предложить какие-либо идеи для повышения производительности

Это мой HIVE запрос

INSERT OVERWRITE LOCAL DIRECTORY '/hadoop/user/m6034690/FSDI/FundamentalAnalytic/FundamentalAnalytic_2014.txt' 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t' 
STORED AS TEXTFILE 
select * from hbase_table_FundamentalAnalytic where FilePartition='ThirdPartyPrivate' and FilePartitionDate='2014'; 

ответ

0

Если вы можете, то я думаю, что Apache Phoenix будет ускорить процесс.

https://phoenix.apache.org/faq.html

Очень простой и удобный в использовании и очень быстро.

+0

О, спасибо. Так что у меня есть существующая таблица HBase с данными, и я могу преобразовать ее, как HIVE и phoenix. – SUDARSHAN

+0

Установите Phoenix и его клиент sqlline.py (очень легко сделать). Затем создайте представление по существующей таблице HBase. Теперь выполняйте запросы, такие как «SELECT * FROM table WHERE ...». Phoenix работает быстро и действует как интерфейс для HBase. Вы взаимодействуете с Phoenix, и он автоматически управляет HBase. Вы даже можете создать вторичный индекс, и прирост производительности будет огромным. Посмотрите здесь http://www.akashnegi.com/copy-of-ny-taxi-data – AkashNegi

+0

Да, правда, но Phoenix не установлен на моем кластере, поскольку он не распущен с CDH 5. Не выпущен для производства – SUDARSHAN

 Смежные вопросы

  • Нет связанных вопросов^_^