У меня есть набор данных в формате HDFS, который находится в паркетном формате с быстрым кодеком сжатия. Что касается моих исследований, в настоящее время Redshift принимает только текстовые форматы, json, avro с gzip, lzo компрессионными кодеками.Команда Redshift COPY для формата Паркета с мгновенным сжатием
В качестве альтернативы, я преобразовываю формат паркета в обычный текст и изменяя мгновенный кодек на gzip с помощью скрипта свиньи.
Есть ли способ загрузки данных непосредственно из паркетных файлов в Redshift?
Есть ли вопрос, который вы хотели задать в сообщении? – rahulbmv
Прости, да. Я ищу решение для обработки файлов формата Parquet до Redshift без преобразования – cloudninja
Вы можете использовать Scala и Spark для этого программно. [см. этот вопрос] (http://stackoverflow.com/questions/36635241/can-you-copy-straight-from-parquet-s3-to-redshift-using-spark-sql-hive-presto) – ratchet