Возможно, это хорошо документировано, но я очень смущен, как это сделать (есть много инструментов Apache).Как преобразовать таблицу SQL на 500 ГБ в пакет Impala Parquet?
Когда я создаю таблицу SQL, я создаю таблицу, используя следующие команды:
CREATE TABLE table_name(
column1 datatype,
column2 datatype,
column3 datatype,
.....
columnN datatype,
PRIMARY KEY(one or more columns)
);
Как один новообращенный это существование таблицы в Паркетные? Этот файл записывается на диск? Если исходные данные составляют несколько ГБ, сколько времени нужно ждать?
Могла ли я форматировать исходные необработанные данные в формат Паркета?
Для записи, Sqoop не имеет реального будущего теперь, Спарк набирает обороты, как «общего назначения ETL для Hadoop и далее »* (Sqoop был разработан Cloudera как решение для стоп-зазора, но Cloudera теперь защищает Spark ...) * –