2016-03-10 3 views
4

У меня есть набор данных в формате HDFS, который находится в паркетном формате с быстрым кодеком сжатия. Что касается моих исследований, в настоящее время Redshift принимает только текстовые форматы, json, avro с gzip, lzo компрессионными кодеками.Команда Redshift COPY для формата Паркета с мгновенным сжатием

В качестве альтернативы, я преобразовываю формат паркета в обычный текст и изменяя мгновенный кодек на gzip с помощью скрипта свиньи.

Есть ли способ загрузки данных непосредственно из паркетных файлов в Redshift?

+0

Есть ли вопрос, который вы хотели задать в сообщении? – rahulbmv

+0

Прости, да. Я ищу решение для обработки файлов формата Parquet до Redshift без преобразования – cloudninja

+0

Вы можете использовать Scala и Spark для этого программно. [см. этот вопрос] (http://stackoverflow.com/questions/36635241/can-you-copy-straight-from-parquet-s3-to-redshift-using-spark-sql-hive-presto) – ratchet

ответ

8

Нет, в настоящее время нет способа загрузить данные формата Паркета непосредственно в Redshift.

EDIT: с 19 апреля 2017 года вы можете использовать Redshift Spectrum для прямого запроса данных Паркета на S3. Поэтому теперь вы можете «загрузить» из Паркета с INSERT INTO x SELECT * FROM parquet_datahttp://docs.aws.amazon.com/redshift/latest/dg/c-using-spectrum.html

+0

Можем ли мы разгрузить файлы данных с красного смещения на s3 в формате паркета? – Teja

+0

На данный момент. Используйте клей «гусеничный», чтобы преобразовать их для вас. Тем не менее, производительность спектра по-прежнему очень хороша для CSV. Используйте MAXFILESIZE 128MB в своем UNLOAD. –

+0

Как преобразовать файлы csv, которые уже находятся на S3 в формат Паркета? Есть ли способ сделать это? – Teja