Насколько я понимаю, когда таблица кластеров кластеризована по одному столбцу, то она выполняет хеш-функцию этого столбчатого столбца и затем помещает эту строку данных в один из ковшей. И есть файл для каждого ведра, т. Е. Если есть 32 ведра, то в hdf-файлах имеется 32 файла.Улей кластеризуется более чем на один столбец
Что это означает, что кластеризовано более чем на один столбец? Например, скажем, что таблица имеет CLUSTERED BY (континент, страна) INTO 32 BUCKETS.
Как выполнить функцию хэша, если имеется более одного столбца?
Сколько файлов будет сгенерировано? Это еще 32?
Спасибо @Maddy. Значит, это также означает, что когда соединение должно выполняться как на континенте, так и в стране? Будет ли он иметь те же преимущества в производительности, если соединение выполняется только на одном столбце, например, в стране? – learninghuman
Если bucketing применяется в двух столбцах как составной, то объединение в виде корзины будет полезно только тогда, когда вы используете оба столбца в качестве критериев присоединения. Это не поможет, если вы используете только один из них (например, страна в этом случае) в качестве критерия объединения. –
Не может ли это поведение контролироваться нами в отношении того, что должно произойти? –