У меня есть куча данных клиента, которая нормализована на несколько таблиц. Я хочу выбрать наилучшие критерии, чтобы лучше понять, что клиент может быть одним и тем же. Должен быть баланс между минимизацией количества дубликатов, а также минимизацией ложных срабатываний и, следовательно, прерыванием пользователей, чтобы спросить о возможных ошибках.Обнаружение дублирующего клиента
Я рассматриваю комбинацию имени и фамилии + номер телефона || адрес электронной почты.
Первый вопрос: что является хорошим набором критериев для определения того, может ли клиент может быть таким же, как и у другого клиента.
Второй вопрос: для этого конкретного приложения я хочу только обнаружить дубликаты для клиентов, которые зарегистрировались в течение последних двух месяцев или около того. Это вообще меняет критерии обнаружения?
Кроме того, я уверен, что обойти эту проверку дублирования будет легко. Просто создайте новый адрес электронной почты, и все готово. Возможно, используйте номер наземной линии для первой учетной записи и номер GSM для второго. Обычно вы просто проверяете, есть ли имя пользователя (если заказчик нуждается в нем), и письмо allready существует. Может быть, почтовый адрес тоже, а затем показать сообщение о том, что есть клиент с таким именем по тому же адресу. Но проверять звонки? Я знаю compeny, который разделяет его число, как бы вы справились с этим? – Bernhard
В этом случае есть сотрудник, который вводит информацию о клиенте. Они берут информацию от клиента, а затем будут представлены потенциальные дубликаты информации. Как правило, будет больше общей информации, которая будет напоминать клиенту о том же, что и другой. Например, клиент, возможно, уже указал адрес и имя, которое было написано по-разному, и номер телефона и т. Д. Кажется, что есть случаи, когда вы захотите дедуктировать запись клиента. –
Но как вы это делаете без подтверждения клиента?Я понимаю, почему Google делает это в контактах google, но я ввел эту информацию, или я получил ее, поэтому я знаю, является ли это дубликат или нет. –