2008-11-03 6 views
13

Мне нужно взять данные о производстве с информацией о реальных клиентах (имена, адрес, номера телефонов и т. Д.) И переместить их в среду разработки, но я бы хотел удалить любое изображение real информация о клиенте.Анонимные данные клиента для разработки или тестирования

Некоторые ответы на вопросы this question могут помочь мне генерировать новые тестовые данные, но как же заменить эти столбцы в моих производственных данных, но сохранить другие соответствующие столбцы?

Предположим, у меня был стол с 10000 поддельными именами. Должен ли я выполнить кросс-соединение с SQL-обновлением? Или сделать что-то вроде

UPDATE table 
SET lastname = (SELECT TOP 1 name FROM samplenames ORDER By NEWID()) 
+0

Вы знаете какие-либо открытые рамки источника данных базы данных анонимайзер? – 2015-05-22 06:42:56

ответ

9

данных анонимайзер может быть сложно, и если это не сделано правильно, может привести вас к неприятности, как то, что случилось с AOL when they released search data a while back. Я попытался создать тестовые данные с нуля любой ценой, прежде чем попытаюсь преобразовать существующие данные клиента. Вещи могут привести вас к тому, чтобы выяснить, кто из этих данных принадлежит к таким вещам, как поведенческий анализ и другие данные, которые вы не считаете чувствительными. Я бы предпочел быть в безопасности, чем сожалеть.

5

Это проще, чем кажется, если вы понимаете базу данных. Одна вещь, которая необходима, - это понять места, где персональная информация не нормализована. Например, основной файл клиента будет иметь имя и адрес, но файл заказа также будет иметь имя и адрес, которые могут быть разными.

Мой основной процесс:

  1. ID данные (то есть столбцы), и таблицы, которые содержат эти столбцы.
  2. Идентификаторы «основных» таблиц для этих столбцов, а также нестандартные экземпляры этих столбцов.
  3. Отрегулируйте основные файлы. Вместо того, чтобы пытаться рандомизировать их (или сделать их фальшивыми), подключите их к ключу файла. Для клиента 123 задайте имя name123, адрес 123 123rd St, 123town, CA, USA, телефон 1231231231. Это добавило бонуса к отладке очень легко!
  4. Изменение ненормальных случаев, либо путем обновления из главного файла или, выполнив такие же де-персонализацию

Это не выглядит красиво, но это работает.

3

Есть несколько инструментов для удаления конфиденциальных данных из баз данных, которые я нашел. Обратите внимание, что я сам не пробовал ни одного из них:

Там также коллекция санитарной обработки БД скриптов здесь, которые могут быть полезны: https://gist.github.com/Tyriar/d3635c6b6e32ac406623