2014-11-27 2 views
0

Моя нынешняя система архивирована таким образом.Как использовать паркет в моей нынешней архитектуре?

Лог-парсер будет анализировать необработанный журнал каждые 5 минут с форматом TSV и выводить на HDFS. Я создал таблицу Hive из TSV-файла из HDFS.

Из некоторых тестов я обнаружил, что паркет может сэкономить до 30-40% пространства. Я также обнаружил, что я могу создать таблицу Hive из файла Parquet, начиная с Hive 0.13. Я хотел бы знать, могу ли я преобразовать TSV в файл Parquet.

Любое предложение приветствуется.

ответ

0

Да, в Hive вы можете легко конвертировать из одного формата в другой, вставляя их из одной таблицы в другую.

Например, если у вас есть таблица TSV определяется как:

CREATE TABLE data_tsv 
(col1 STRING, col2 INT) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'; 

И паркетной таблица определяется как:

CREATE TABLE data_parquet 
(col1 STRING, col2 INT) 
STORED AS PARQUET; 

Вы можете преобразовать данные с:

INSERT OVERWRITE TABLE data_parquet SELECT * FROM data_tsv; 

Или вы можете пропустить таблицу паркета DDL:

CREATE TABLE data_parquet STORED AS PARQUET AS SELECT * FROM data_tsv; 

 Смежные вопросы

  • Нет связанных вопросов^_^