Это, вероятно, процесс, который требует групповой тактики, применяемой для нескольких повторных итераций. Ни один нечеткий матч не сможет их поймать в первый раз. Оптимальная стратегия должна сузить возможности для ручного согласования. Как только вы их сопоставляете, исключите их из дальнейшего нечеткого соответствия. Проходите через все записи, используя различные тактики, чтобы максимально ограничить непревзойденные записи.
Что касается тактики, вы указываете дату и что в этот день может быть 10 слияний. Теперь вы просто вручную сопоставляете только те 10. Это становится управляемым куском.
Использование названия компании трудно ...
Да, но вы можете комбинировать дату с Levenshtein Distance (или эквивалентный алгоритм) для ранжирования возможных вариантов, чтобы сузить варианты. Таким образом, имена с eBay в них будут все ближе, когда вы оцениваете их по расстоянию Левенштейна.
Другие алгоритмы сравнения текста, кроме Levenshtein, включают Gotoh, Jaro, Soundex, Chapman и т. Д. Некоторые из этих методов являются десятилетиями, поэтому шансы найти надстройки Excel высоки. Раньше существовала динамичная группа с открытым исходным кодом, работающая над этими решениями на Sourceforge.net.
... их комбинации становятся полезным (например, Дата & Страна & SIC промышленность классификационного кода и т.д.).
Остерегайтесь SIC-кодов. Они никогда не являются последовательными и точными. В зависимости от того, кто поддерживал эти коды, вы не можете получать очень точные значения, превышающие 4-значный уровень. Также были обновлены сами коды SIC, в то время как компании не обязаны обновлять/пересматривать их по мере необходимости. Наконец, коды SIC были заменены новыми кодами NAICS, которые, в свою очередь, имели несколько версий. Во время каждого изменения они добавляют новые отрасли, такие как компании Social Media, которых не было в старых кодах SIC. Однако коды SIC/NAICS могут быть полезны для устранения дубликатов путем самосогласования.
... любые идеи или указатели на ресурсы ...
Функции индексирования текста SQL Server имеют готовые алгоритмы поиска совпадений. В зависимости от ваших ресурсов, это может быть что-то для изучения.
Если этот процесс сопоставления будет обычной задачей, вы можете изучить специализированные продукты ETL (извлечение, преобразование, загрузка), предлагаемые различными службами интеграции данных. Некоторые из них обеспечивают двунаправленные обновления. Но независимо от того, насколько сложным является решение, все это основано на нескольких простых тактиках, как показано выше, и почти все они содержат ручные переопределения.
Большое спасибо, очень полезно. Спасибо также за внимание к проблемам SIC-кодов, мне придется попробовать и обойти это. В конечном счете, я думаю, что буду работать с отраслевыми классификациями Fama-French, но планировал конвертировать из SIC/NAICS. –