У вас есть идея семейств столбцов: на самом деле это всего лишь намек на то, чтобы HBase хранил и копировал эти элементы для более быстрого доступа.
Если вы поместите два семейства столбцов в одну таблицу и всегда имеете разные ключи для доступа к ним, то это действительно то же самое, что и их наличие в двух отдельных таблицах. Вы получаете только наличие двух семейств столбцов в одной таблице, к которым обращаются через те же ключи.
Например: если у меня есть столбцы для общего количества просмотров страниц для данного веб-сайта, количество уникальных просмотров для одного и того же сайта, браузер, который пользователь использует для просмотра сайта, и их подключение к Интернету, я могу решите, что я хочу, чтобы первые два были семейством столбцов, а последние два - другим семейством столбцов. Здесь все четыре доступны одним и тем же ключом, а именно рассматриваемый веб-сайт, поэтому я набираю их в одной таблице.
Если они находятся в разных таблицах, мне придется выполнить операцию объединения в двух таблицах. Я действительно не знаю числа, хотя я не могу сказать вам, насколько медленна операция, подобная соединению (так как я не помню, что HBase имеет соединение, так как это нереляционная), и что такое точка опроса, где происходит расщепление их на отдельные таблицы перевешивают их в одной таблице (или наоборот).
Конечно, все это зависит от данных, которые вы пытаетесь сохранить, поэтому, если вам никогда не понадобится присоединиться к таблицам, вы хотели бы сохранить их в отдельных таблицах, поскольку вы можете утверждать, что они не такие в первую очередь, связаны друг с другом.
Вы говорите: «Присоединяйтесь дорого». Это означает, что «объединение» между группами столбцов в одной и той же таблице дешевле, чем объединение групп столбцов через таблицы. Это так? Я думаю, что документы HBase не делают этого ясным. – Thilo
Я бы подумал, что гораздо дешевле делать «соединение» между столбцами в одной таблице, так как это просто операция «get» с двумя названными столбцами и является примитивным языком запросов. Однако «Join» не является примитивным, и вам нужно будет реализовать его самостоятельно (что требует больше операций). –