2016-04-05 7 views
0

У меня есть два сценария, которые анализируют данные из необработанных журналов и записывают их в таблицы ORC в HIVE. Один скрипт создает больше столбцов, а другой меньше. Обе таблицы разделены полем date.Улей. Проверьте размер полосы для существующего хранилища ORC

В результате у меня есть таблицы ORC с различными размерами файлов. Таблица с большим количеством столбцов состоит из множества небольших файлов (~ 4 МБ на каждый файл внутри каждого раздела), а таблицы с меньшим количеством столбцов состоят из нескольких больших файлов (~ 250 МБ на каждый файл внутри каждого раздела).

Я полагаю, что это происходит из-за установки полосы в пространстве ORC. Но я не знаю, как проверить размер полосы для существующей таблицы. Команды, такие как «show create» и «describe», не показывают никаких пользовательских настроек, это означает, что размер полосы для таблиц должен быть равен 256 МБ.

Я ищу любые советы по проверке stripe.size для существующей таблицы ORC. Или объяснение того, как размер файла внутри таблиц ORC зависит от данных в этих таблицах.

P.s.It имеет значение позже, когда я читаю из этих таблиц с помощью Map Reduce и существует небольшое количество редукторов для таблиц с большими файлами.

ответ

0

Попробуйте утилиту для хранения файлов ОВК ORC: ORC File Dump Utility.

+0

Спасибо, что поделились этим. Я сделал несколько дампов, но я не могу понять ничего полезного на выходе. Например, я вижу, что маленькие файлы имеют всего 2 полосы, а большие файлы имеют 62 полосы. Это не дает мне представления о том, как решить мою проблему :) – Samriang

 Смежные вопросы

  • Нет связанных вопросов^_^