Команда Redshift COPY для формата Паркета с мгновенным сжатием

У меня есть набор данных в формате HDFS, который находится в паркетном формате с быстрым кодеком сжатия. Что касается моих исследований, в настоящее время Redshift принимает только текстовые форматы, json, avro с gzip, lzo компрессионными кодеками.Команда Redshift COPY для формата Паркета с мгновенным сжатием

В качестве альтернативы, я преобразовываю формат паркета в обычный текст и изменяя мгновенный кодек на gzip с помощью скрипта свиньи.

Есть ли способ загрузки данных непосредственно из паркетных файлов в Redshift?

источник

2016-03-10 cloudninja

Есть ли вопрос, который вы хотели задать в сообщении? – rahulbmv

Прости, да. Я ищу решение для обработки файлов формата Parquet до Redshift без преобразования – cloudninja

Вы можете использовать Scala и Spark для этого программно. [см. этот вопрос] (http://stackoverflow.com/questions/36635241/can-you-copy-straight-from-parquet-s3-to-redshift-using-spark-sql-hive-presto) – ratchet

Нет, в настоящее время нет способа загрузить данные формата Паркета непосредственно в Redshift.

EDIT: с 19 апреля 2017 года вы можете использовать Redshift Spectrum для прямого запроса данных Паркета на S3. Поэтому теперь вы можете «загрузить» из Паркета с INSERT INTO x SELECT * FROM parquet_datahttp://docs.aws.amazon.com/redshift/latest/dg/c-using-spectrum.html

источник

2016-03-14 15:00:03

Можем ли мы разгрузить файлы данных с красного смещения на s3 в формате паркета? – Teja

На данный момент. Используйте клей «гусеничный», чтобы преобразовать их для вас. Тем не менее, производительность спектра по-прежнему очень хороша для CSV. Используйте MAXFILESIZE 128MB в своем UNLOAD. –

Как преобразовать файлы csv, которые уже находятся на S3 в формат Паркета? Есть ли способ сделать это? – Teja

Команда Redshift COPY для формата Паркета с мгновенным сжатием

ответ

Смежные вопросы