Слияние двух наборов данных с нечетким идентификатором в Excel

Я пытаюсь объединить два набора данных при слиянии & Приобретения. Оба они состоят из c.10'000 наблюдений с c.50-100 переменных каждый. Один содержит информацию о фактической сделке M &, тогда как другая содержит информацию о том, как была финансирована сделка.Слияние двух наборов данных с нечетким идентификатором в Excel

Проблема в том, что нет четкого и уникального идентификатора. Например, я мог бы использовать дату, когда сделка была объявлена, но это не было бы уникальным, потому что в некоторые дни было объявлено 10 сделок. Использование названий компаний затруднено, поскольку они в большинстве случаев не идентичны в обоих наборах данных. Например, если в одном наборе данных я нахожу «Ebay», в другой же компании можно назвать «eBay», «Ebay Inc» или «Ebay, Inc.»,

Я работал с Fuzzy Lookup надстройкой для Excel, а также concacenating различных идентификаторов, которые не являются уникальными, но в их комбинациях становлюсь полезным (например, Дата & Страна & SIC промышленность классификационного кода и т.д.). Однако я не смог создать столько матчей, сколько бы надеялся.

Буду благодарен за любые идеи или указания на ресурсы, которые помогут мне более эффективно объединить данные.

источник

2015-08-23 F Bert

Это, вероятно, процесс, который требует групповой тактики, применяемой для нескольких повторных итераций. Ни один нечеткий матч не сможет их поймать в первый раз. Оптимальная стратегия должна сузить возможности для ручного согласования. Как только вы их сопоставляете, исключите их из дальнейшего нечеткого соответствия. Проходите через все записи, используя различные тактики, чтобы максимально ограничить непревзойденные записи.

Что касается тактики, вы указываете дату и что в этот день может быть 10 слияний. Теперь вы просто вручную сопоставляете только те 10. Это становится управляемым куском.

Использование названия компании трудно ...

Да, но вы можете комбинировать дату с Levenshtein Distance (или эквивалентный алгоритм) для ранжирования возможных вариантов, чтобы сузить варианты. Таким образом, имена с eBay в них будут все ближе, когда вы оцениваете их по расстоянию Левенштейна.

Другие алгоритмы сравнения текста, кроме Levenshtein, включают Gotoh, Jaro, Soundex, Chapman и т. Д. Некоторые из этих методов являются десятилетиями, поэтому шансы найти надстройки Excel высоки. Раньше существовала динамичная группа с открытым исходным кодом, работающая над этими решениями на Sourceforge.net.

... их комбинации становятся полезным (например, Дата & Страна & SIC промышленность классификационного кода и т.д.).

Остерегайтесь SIC-кодов. Они никогда не являются последовательными и точными. В зависимости от того, кто поддерживал эти коды, вы не можете получать очень точные значения, превышающие 4-значный уровень. Также были обновлены сами коды SIC, в то время как компании не обязаны обновлять/пересматривать их по мере необходимости. Наконец, коды SIC были заменены новыми кодами NAICS, которые, в свою очередь, имели несколько версий. Во время каждого изменения они добавляют новые отрасли, такие как компании Social Media, которых не было в старых кодах SIC. Однако коды SIC/NAICS могут быть полезны для устранения дубликатов путем самосогласования.

... любые идеи или указатели на ресурсы ...

Функции индексирования текста SQL Server имеют готовые алгоритмы поиска совпадений. В зависимости от ваших ресурсов, это может быть что-то для изучения.

Если этот процесс сопоставления будет обычной задачей, вы можете изучить специализированные продукты ETL (извлечение, преобразование, загрузка), предлагаемые различными службами интеграции данных. Некоторые из них обеспечивают двунаправленные обновления. Но независимо от того, насколько сложным является решение, все это основано на нескольких простых тактиках, как показано выше, и почти все они содержат ручные переопределения.

источник

2015-08-23 16:17:59

Большое спасибо, очень полезно. Спасибо также за внимание к проблемам SIC-кодов, мне придется попробовать и обойти это. В конечном счете, я думаю, что буду работать с отраслевыми классификациями Fama-French, но планировал конвертировать из SIC/NAICS. –

Слияние двух наборов данных с нечетким идентификатором в Excel

ответ

Смежные вопросы