Моя нынешняя система архивирована таким образом.Как использовать паркет в моей нынешней архитектуре?
Лог-парсер будет анализировать необработанный журнал каждые 5 минут с форматом TSV и выводить на HDFS. Я создал таблицу Hive из TSV-файла из HDFS.
Из некоторых тестов я обнаружил, что паркет может сэкономить до 30-40% пространства. Я также обнаружил, что я могу создать таблицу Hive из файла Parquet, начиная с Hive 0.13. Я хотел бы знать, могу ли я преобразовать TSV в файл Parquet.
Любое предложение приветствуется.