Мы работаем над очисткой и анализом множества данных о человеческих данных. Мы должны решить программно, являются ли 2 адреса (например) одинаковыми, хотя данные были введены с небольшими изменениями.Очистка данных: существуют ли библиотеки общих подстановок, которые мы можем использовать? Или есть лучший подход?
Прямо сейчас мы запускаем каждый адрес через довольно упрощенную замену строк (например, заменяя проспект пр.), Объединяем поля и сравниваем результаты. Мы делаем что-то подобное с именами.
По крайней мере, кажется, что наш список значений для замещения поиска уже должен существовать где-то.
Возможно, вы можете предложить совершенно другой и лучший способ определить соответствия?
спасибо, я думаю, это будет действительно полезно! – anyaelena
Осторожно - Google не всегда будет возвращать ПРАВИЛЬНЫЕ результаты, это только делает наилучшую возможность. – Matt