У меня есть таблица со значениями, такими как адрес, имя, IBAN, электронная почта и хотите определить, когда клиент в последний раз купил что-то.Нечеткая идентификационная отпечатка
Проблема в том, что некоторые поля содержат орфографические ошибки, другие были намеренно введены неправильно.
На GitHub несколько библиотек, таких как https://github.com/seatgeek/fuzzywuzzy, https://github.com/seamusabshere/fuzzy_match или https://github.com/atom/fuzzaldrin, доступны для выполнения нечетких запросов на основе одного и сопоставимого столбца. Но я хочу объединить несколько полей - это звучит как общая проблема, и я ожидал найти существующие решения там.
Можете ли вы рекомендовать подходы к такой проблеме? Существуют ли существующие проекты для такой проблемы, которые мне не хватает? Является ли регулярная строка-расстояние по всем полям, как правило, достаточно хорошими?