Я знаю, что мы можем загружать паркетный файл с помощью Spark SQL и использовать Impala, но интересно, можем ли мы сделать то же самое с помощью Hive. Я читал много статей, но я все еще смущен.Можем ли мы загрузить файл Parquet в Hive прямо?
Проще говоря, у меня есть файл паркета - скажем, users.parquet. Теперь я поражен здесь, как загружать/вставлять/импортировать данные из user.parquet в улей (очевидно, в таблицу).
Пожалуйста, сообщите мне в правильном направлении, если мне не хватает чего-то очевидного.
Creating hive table using parquet file metadata
https://phdata.io/examples-using-textfile-and-parquet-with-hive-and-impala/
Трюк, который я сделал с файлами ORC (на самом деле клонировать таблицу Prod в тестовый кластер): создать несегментированную таблицу с той же точной структурой; скопируйте файлы данных в каталог, используемый новой таблицей; * voila *, таблица заполнена. Возможно также работать с Парке. –