Если вы работаете в компании, вы можете рассмотреть возможность покупки упакованного решения. Один из них, который я видел, - Nuix. Кроме того, Oracle имеет сквозное решение для GDPR (новое законодательство о конфиденциальности ЕС), которое включает в себя те функции, которые вы описываете. См. http://www.oracle.com/technetwork/database/security/wp-security-dbsec-gdpr-3073228.pdf.
Если у вас есть СУБД Oracle, есть пакет под названием CTXSYS (теперь называемый Oracle Text), который имеет удивительные возможности поиска по документам, включая PDF-файлы, весь пакет Office и многие другие. CTXSYS включен в обычную лицензию. Если вы являетесь домашним пользователем, вы можете загрузить сервер Oracle (версия Express подходит для этой функции).
Если вы используете регулярные выражения, как было предложено выше, одним простым подходом было бы поиск слов, которые капитализируются в середине предложения, но это помогает только с документами (не так много с XLS, например). Вы также можете создать словарь общих имен (фамилии, имена, улицы, города). Кредитные карты и SSN должны быть легко regex-able.
Как, скажите, может ли подобное подобное быть использовано этическим образом? – Crisfole
Ну, это когда вы работаете, чтобы защитить его. Вы знаете, что не посещаемые PII, особенно карты, представляют больший риск, и теперь его требуется, чтобы такие, как PCIDSS, сканировали среду и защищали ее, прежде чем ее использовали неправильно. Итак, у меня чисто этические причины. – Novice123
Сомнительные в лучшем случае –