Я разрабатываю измерение для хранилища данных, которое включает в себя несколько связанных атрибутов из разных таблиц. При загрузке таблиц фактов мне обычно нравится искать суррогатные ключи из таблиц измерений на основе ключей из исходной системы, а не для сопоставления текста по различным атрибутам. Для ситуации, подобной той, с которой я сталкиваюсь, предпочтительнее иметь несколько столбцов ключевых столбцов источника в таблице измерений (по одному от каждой из соответствующих таблиц), чтобы выполнить поиск, или создать один столбец поиска, используя какой-то тип хеша или конкатенации?Лучшая практика для естественных ключей в измерении, которая включает данные из нескольких исходных таблиц
Пожалуйста, дайте мне знать, если вам нужна дополнительная информация.
Можете привести пример? Мне нужно уточнить «несколько столбцов исходного кода». – Nick
Ник: В этом случае размер хранит данные о опухолях, в частности, он хранит место опухоли, линию опухоли и опухолевую линию. Каждый из этих точек данных поступает из другой таблицы, но они связаны таким образом, что они принадлежат к одному измерению. Так, например, из таблицы опухолевых клеток имеется опухолевая клетка, lneageId из таблицы линий и subLineageId из таблицы subLineage. Это помогает? – wshato
@wshato Я бы рекомендовал создать воспроизводимый пример: создать табличный sql-скрипт, и 2+ csv исходных данных. Имея такой вопрос, вы можете легко получить точный ответ. – jangorecki