pandas.dataframe.duplicated отлично подходит для поиска повторяющихся строк по указанным столбцам в области данных.Получить дублированные строки в наборе данных большего размера с помощью pandas
Однако мой набор данных больше, чем то, что подходит в памяти (и даже больше, чем я мог бы вставить после его расширения в разумных бюджетных пределах).
Это хорошо для большинства анализов, которые я должен выполнить, поскольку я могу перебирать свой набор данных (файлы csv и dbf), загружая каждый файл в память самостоятельно и делая все последовательно. Однако, что касается повторного анализа, это, по-видимому, не подходит для поиска дубликатов во всем наборе данных, но только в отдельных файлах.
Есть ли какой-либо алгоритм или подход для поиска дубликатов в нескольких кадрах данных, не загружая их все в память одновременно?
Как насчет хэширования значений строк и поиска повторяющихся значений хэш? – AndreyF