2016-11-29 5 views
0

Я читаю книгу «Моделирование гибкого хранилища данных с хранилищем данных» Х. Хултгрена. Он утверждает:Дата Склад: когда выполняется очистка и трансформация?

EDW представляет то, что случилось - не то, что должно было произойти

Когда выполняется очистка и, возможно, преобразующая? При трансформации я имею в виду stadartization f значения, например, столбец пола может содержать только два возможных значения «f» и «m», а не «женский» или «мужской» или 0 или 1)?

+0

Если вы импортируете данные через ETL, это одно место для этого. Или вы можете использовать другой инструмент очистки данных. Это очень общий вопрос. Это зависит от архитектуры вашего хранилища данных. Что подсказывает вопрос? –

+0

Я не уверен, почему это должно зависеть от архитектуры хранилища данных. Имея необработанные данные, вы хотите создать хранилище данных для проведения анализа. Однако для проведения анализа данные должны быть стандартизированы (пример с сексом). Халтгрен упоминает, что EDW представляет собой то, что уже произошло, что означает, что никакая трансформация или очистка не должны выполняться, потому что тогда она будет представлять то, что должно было произойти. – Tonja

+2

Например, у вас может быть хранилище данных, которое загружает данные и пытается их автоматически очистить, или у вас может быть архитектура, где каждая «плохая» запись переходит в область одобрения, которую должен очистить человек. Я могу заверить вас в реальном мире, ни один бизнес-пользователь не хочет выбирать из шести значений для пола. Это очень широкое заявление о EDW. Это может означать, например, что вы должны отражать то, что произошло в исходных системах, без добавления корректировок или журналов, чтобы данные выглядели лучше. –

ответ

1

Если вы импортируете данные через ETL, это одно место для этого. Или вы можете использовать другой инструмент очистки данных. Это очень общий вопрос. Это зависит от архитектуры вашего хранилища данных.

Например, у вас может быть хранилище данных, которое загружает данные и пытается их автоматически очистить, или у вас может быть архитектура, где каждая «плохая» запись переходит в зону одобрения, которую должен очистить человек. Я могу заверить вас в реальном мире, ни один бизнес-пользователь не хочет выбирать из шести значений для пола.

Другое дело, что вы можете загружать данные из трех разных систем, и эти три разных представления полностью действительны в каждой системе, но конечный пользователь не хочет выбирать из 6 вариантов - они хотят данных очищаться.

Я думаю, может быть, это заявление

EDW представляет то, что случилось - не то, что должно было произойти

является хранилище данных, определенная вещь, так как DV все о моделировании и хранить данные исходной системы независимо от того, как изменяется схема, и я предполагаю, что в этом случае вы обработали хранилище данных как ODS и сохранили данные как есть, а затем очистите их по пути в схему звездочки отчетности