У меня есть два сценария, которые анализируют данные из необработанных журналов и записывают их в таблицы ORC в HIVE. Один скрипт создает больше столбцов, а другой меньше. Обе таблицы разделены полем date
.Улей. Проверьте размер полосы для существующего хранилища ORC
В результате у меня есть таблицы ORC с различными размерами файлов. Таблица с большим количеством столбцов состоит из множества небольших файлов (~ 4 МБ на каждый файл внутри каждого раздела), а таблицы с меньшим количеством столбцов состоят из нескольких больших файлов (~ 250 МБ на каждый файл внутри каждого раздела).
Я полагаю, что это происходит из-за установки полосы в пространстве ORC. Но я не знаю, как проверить размер полосы для существующей таблицы. Команды, такие как «show create» и «describe», не показывают никаких пользовательских настроек, это означает, что размер полосы для таблиц должен быть равен 256 МБ.
Я ищу любые советы по проверке stripe.size для существующей таблицы ORC. Или объяснение того, как размер файла внутри таблиц ORC зависит от данных в этих таблицах.
P.s.It имеет значение позже, когда я читаю из этих таблиц с помощью Map Reduce и существует небольшое количество редукторов для таблиц с большими файлами.
Спасибо, что поделились этим. Я сделал несколько дампов, но я не могу понять ничего полезного на выходе. Например, я вижу, что маленькие файлы имеют всего 2 полосы, а большие файлы имеют 62 полосы. Это не дает мне представления о том, как решить мою проблему :) – Samriang