2016-03-08 5 views
0

Является ли файл ORC со сжатым сжатием в полосах? Насколько я знаю, Snappy Compressed File не расщепляется. Но я прочитал в блоге, что мгновенный сжатый файл можно разделить на полосы. Это правда?Является ли файл ORC со сжатым сжатием на полосе?

+0

Из https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC ясно, что файл ORC разделен на ** независимые ** «полосы», а нижний колонтитул * (который содержит некоторые метаданные, т. е. значения min/max для каждого столбца) * могут быть доступны напрямую, с чем-то вроде 'seek()'. Интересно, как это можно сделать, если сжатие было выполнено на уровне файлов ... поэтому я склонен полагать, что блоги, утверждающие, что сжатие выполняется на уровне stripe + column. –

ответ

0

Вам нужно будет создать свой собственный класс InputFormat, я не верю OrcInputFormat или OrcNewInputFormat поддержка расщепления на уровне полосы.