Я генерирую записи журнала о действиях пользователя. По соображениям конфиденциальности они должны быть анонимизированы после N дней. Однако мне также нужно запускать отчеты против этих анонимизированных данных.Как анонимизировать новые записи журнала, не нарушая отношений между старыми и новыми данными?
Я хочу, чтобы все действия действительного пользователя A были перечислены под поддельным пользователем X в анонимных журналах. Записи одного пользователя все равно должны содержать записи одного (поддельного) пользователя в журналах. Это, очевидно, означает, что мне нужно иметь некоторое сопоставление между реальными и поддельными пользователями, которые я использую при анонимности новых записей. Конечно, это полностью нарушает точку анонимности - если есть сопоставление, исходные пользовательские данные могут быть восстановлены.
Пример:
Пользователь Франк Мюллер купил 3 банок супа.
Через три дня пользователь Фрэнк Мюллер попросил вернуть за 3 банки супа.
Когда я анонимую вторую запись в журнале, первая из них была анонимной. Я все равно хочу, чтобы обе записи журнала указывали на одного пользователя. Ну, это практически невозможно для меня на практике, поэтому я хотел бы использовать какой-то метод разделения данных, которые, надеюсь, позволят мне сохранить как можно больше целостности данных. Возможно, использование журналов в качестве хранилища данных - разделить все на факты и просто принять тот факт, что некоторые измерения не могут быть проанализированы?
Вы столкнулись с таким сценарием раньше? Какие у меня варианты? Мне, очевидно, нужно сделать какой-то компромисс - что оказалось для вас эффективным? Как получить максимальную пользу от таких данных?
Отличный ответ для покрытия псевдонимами, одностороннего хеширования, рисков повторной идентификации и управления ключами. – npdoty