Как вы эффективно разрабатываете таблицу Hive/Impala с учетом следующих фактов?Перегородка Hadoop. Как вы эффективно разрабатываете таблицу Hive/Impala?
- Таблица получает данные инструмента около 100 миллионов строк каждый день. Дата, в которую он получает данные, хранится в столбце таблицы вместе с ее идентификатором инструмента.
- Каждый инструмент получает около 500 прогонов в день, который идентифицируется идентификатором пробега столбца. Каждый идентификатор запуска содержит данные размером примерно 1 мб.
- Размер по умолчанию блока - 64 МБ.
- Таблицу можно найти по дате, идентификатору инструмента и идентификатору запуска в этом порядке.
Что вы считали до сих пор? – dg99
[Добро пожаловать в SO!] (Http://stackoverflow.com/help/how-to-ask), пожалуйста, обновите свои выводы, иначе вопрос станет слишком широким! –