2015-11-22 2 views
0

Я использую Apache spark-sql для запроса данных из базы данных. Я знаю, что Spark по умолчанию имеет тот же метастор улья. Я разделил входные данные на основе идентификатора столбца, который имеет более 300 тыс. Различных значений. На данный момент для этой таблицы имеется более 300 тыс. Разделов, и она будет периодически увеличиваться.Ошибки из-за большого количества разделов в метафоре улья

Возникла ли проблема из-за этого?

ответ

1

Да, эти записи многих разделов создают накладные расходы на узле имени для отслеживания каждой из записей раздела.

Если у вас есть одна таблица, то индексирование Hive в этом столбце является хорошим вариантом.