У меня есть ~ 2 ТБ CSV, где первые 2 столбца содержит два идентификационных номера. Они должны быть анонимизированы, чтобы данные могли использоваться в академических исследованиях. Анонимизация может быть (но не обязательно) необратимой. Это НЕ медицинские записи, поэтому мне не нужен самый причудливый криптографический алгоритм.Анинимизация номеров счетов в 2 ТБ CSV
Вопрос:
Стандартные алгоритмы хэширования сделать очень длинные строки, но мне придется сделать кучу ID-согласования (т.е. «для подмножества строк в данных, содержащих ID XXX, сделать ...) 'для обработки анонимных данных, поэтому это не идеально. Есть ли способ лучше?
Например, если я знаю, что существует ~ 10 миллионов уникальных номеров учетных записей, существует ли стандартный способ использования набора целых чисел [1: 10 миллионов] в качестве замены/анонимных идентификаторов?
Расчетное ограничение состоит в том, что данные, скорее всего, будут анонимизированы на 32-ядерном сервере 500 ГБ.
(a * x + b)% m; с m около 10 миллионов, нечетным и относительно простым по m; и сохранить a и b «секрет». – wildplasser
Есть ли формат номеров учетных записей (или каждой клавиши)? – itsols
нет, если 'gcd (a, m) == 1' (« относительно простое »). Попробуйте с помощью {a, m}: = (малых) простых чисел. (для OP, m обязательно должно быть> = max (исходный номер)) – wildplasser