Я прошел через приведенную ниже ссылку для обработки проблем с качеством данных в хранилище данных. .Обработка дубликатов в хранилище данных
http://www.kimballgroup.com/2007/10/an-architecture-for-data-quality/
" Отвечая качества События Я уже заметил, что каждый экран качества должен решить, что происходит, когда выдается ошибка Возможны следующие варианты: 1) прекращение процесса, 2) направление обижая записи (ей) в неизвестности файл для последующей обработки, и 3) просто мечения данные и передать его через к следующему шагу в трубопроводе. третьего варианта является самым лучшего выбора. "
В (например, список клиентов), иногда мы получаем один и тот же Клиент дважды (две записи имеют разницу в определенных атрибутах). Какое наилучшее решение в этом сценарии?
Я не хочу отклонять обе записи (так как это означает неполные данные клиента).
Исходные системы очень медленно фиксируют проблему, поэтому каждый день мы получаем одни и те же проблемы. Это означает, что исправление вручную проблемы также является жестким, поскольку это нужно делать каждый день (каждый день мы получаем список клиентов).
Выбор одной записи невозможен, так как мы не знаем, что такое правильное значение.
Имея обе записи на нашем складе, наши соединения разрушены. Из-за двух строк для одного и того же идентификатора строки таблицы фактов удваиваются (в соединении).
Любые мысли?
Отправка оскорбительных записей в файл приостановки для последующей обработки и использование графического интерфейса для исправления оскорбительных записей кажется вашим лучшим выбором. –