Панд нечетких обнаружений дубликатов

Как можно использовать нечеткое соответствие в панде для обнаружения повторяющихся строк (эффективно)Панд нечетких обнаружений дубликатов

Как найти дубликаты одного столбца против всех остальных, не гигантский цикла преобразования row_i toString(), а затем сравнивая его со всеми остальными?

источник

2016-09-14 Georg Heiler

FuzzyWuzzy - это реализация расстояния редактирования, что было бы хорошим кандидатом для построения матрицы попарного расстояния в numpy или аналогичной. , чтобы обнаружить «дубликаты» или близкие совпадения, вам нужно, по крайней мере, сделать сравнение с каждой строкой на другие строки или вы никогда не узнаете, являются ли два близки друг к другу. см. http://stackoverflow.com/questions/24089973/python-numpy-pairwise-edit-distance для решения с использованием pdist в scipy. –

Вы можете потенциально приблизиться к нему - см. Http://cs.stackexchange.com/questions/2093/efficient-map-data-structure-supporting-approximate-lookup/2096#2096 –

или получить фантазию: https: // en .wikipedia.org/вики/BK-дерево. Не уверен, что кто-либо из них особенно полезен для вашего дела. –

Не специфичные для панды, но в пределах экосистемы python dedupe python library, похоже, будет делать то, что вы хотите. В частности, он позволяет сравнивать каждый столбец строки отдельно, а затем объединять информацию в единую вероятностную оценку соответствия.

источник

2016-09-18 02:52:09 fgregg

Панд нечетких обнаружений дубликатов

ответ

Смежные вопросы