2017-01-13 6 views
0

Apache Drill имеет приятную особенность создания паркетных файлов из множества входящих наборов данных, но, похоже, не так много информации о том, как использовать эти паркетные файлы позже - особенно в Улье.Как использовать файлы Паркета, созданные с помощью Apache Drill внутри Hive

Есть ли способ, чтобы Улей мог использовать эти файлы «1_0_0.parquet» и т. Д.? Возможно, создайте таблицу и загрузите данные из паркетных файлов или создайте таблицу и как-то поместите эти паркетные файлы внутри hdfs, чтобы Hive читал ее?

+0

Возможный дубликат [Динамически создать улей внешнюю таблицу с Avro схемой на паркетных данных] (http://stackoverflow.com/questions/34181844/dynamically-create-hive-external- table-with-avro-schema-on-parquet-data) –

+0

К сожалению, Apache Drill не создает схему Avro, вы предлагаете мне вручную создать ее? – Pavel

+0

Да .. См. Http://kitesdk.org/docs/0.17.1/labs/4-using-parquet-tools-solution.html –

ответ

0

Я столкнулся с этой проблемой, если вы используете дистрибутив Cloudera, вы можете создавать таблицы с помощью impala (Impala и Hive совместно использовать метастор), он позволяет создавать таблицы из паркетного файла. К сожалению, улей не позволяет это

CREATE EXTERNAL TABLE table_from_fileLIKE PARQUET  '/user/etl/destination/datafile1.parquet' 
STORED AS PARQUET 
LOCATION '/user/test/destination';