Привет У меня есть таблица hive на HBASE, которая имеет 200 гб записей. Я запускаю простой запрос на улей, чтобы получить 20-граммовые записи. Но это занимает около 4 часов. Я не могу создать раздел на таблице HIVE, потому что он интегрирован на HBASE.Запрос на получение информации о ВИЧ-инфекции занимает очень много времени, чтобы получить 20-граммовые записи
Просьба предложить какие-либо идеи для повышения производительности
Это мой HIVE запрос
INSERT OVERWRITE LOCAL DIRECTORY '/hadoop/user/m6034690/FSDI/FundamentalAnalytic/FundamentalAnalytic_2014.txt'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
select * from hbase_table_FundamentalAnalytic where FilePartition='ThirdPartyPrivate' and FilePartitionDate='2014';
О, спасибо. Так что у меня есть существующая таблица HBase с данными, и я могу преобразовать ее, как HIVE и phoenix. – SUDARSHAN
Установите Phoenix и его клиент sqlline.py (очень легко сделать). Затем создайте представление по существующей таблице HBase. Теперь выполняйте запросы, такие как «SELECT * FROM table WHERE ...». Phoenix работает быстро и действует как интерфейс для HBase. Вы взаимодействуете с Phoenix, и он автоматически управляет HBase. Вы даже можете создать вторичный индекс, и прирост производительности будет огромным. Посмотрите здесь http://www.akashnegi.com/copy-of-ny-taxi-data – AkashNegi
Да, правда, но Phoenix не установлен на моем кластере, поскольку он не распущен с CDH 5. Не выпущен для производства – SUDARSHAN