Я работаю над проектом хранилища данных, который будет включать интеграцию данных из нескольких исходных систем. Я настроил пакет SSIS, который заполняет измерение клиента и использует медленно изменяющийся инструмент измерения, чтобы отслеживать обновления для клиента.Нужна помощь в понимании альтернатив scd в SSIS
У меня возникают проблемы. Возьмем такой пример:
Источник система А может иметь запись как это выглядит следующим образом:
Имя, Фамилия, Zipcode Джейн Доу, 14222
Источник система B может иметь запись для тот же самый клиент, который выглядит следующим образом:
Имя, Фамилия, Zipcode Джейн Доу, Неизвестный
Если я первый импортировать записи из системы А, у меня будет первое имя , фамилию и этническую принадлежность. Отлично. Теперь, если я импортирую запись клиента из системы B, я могу выполнить нечеткое сопоставление, чтобы узнать, что это тот же человек, и использовать медленно меняющийся инструмент измерения для обновления информации. Но в этом случае я потеряю zipcode, потому что «unknown» перезапишет действительные данные.
Мне интересно, не подходит ли я к этой проблеме неправильно. Инструмент SCD, похоже, не предлагает какого-либо способа выборочного обновления атрибутов на основе того, являются ли новые данные действительными или нет. Будет ли работа слиянием работать лучше? Я делаю какую-то фундаментальную ошибку дизайна, которую я не вижу?
Спасибо за любой совет!
Благодарим Вас за подтверждение ограничений встроенного SCD инструмента. У меня была догадка, что это будет так, но мне нужно какое-то внешнее подтверждение, прежде чем я откажусь от своего нынешнего проекта. –