Я ищу, чтобы найти все строки CSV-файла, содержащие дубликаты данных в двух или более полях этой строки (т. Е. Найти все строки без уникальных данных в каждом поле.)Каков наиболее эффективный способ поиска строк CSV, не содержащих повторяющихся записей в полях этой строки (исключая пробел)?
Например, у меня есть следующий CSV файл:
John,Smith,Smith,21
Mary,Jones,Smith,32
John,42,42,42
Henry,Brown,Jones,31
Mary,,,21
Я хочу следующие строки для печати:
John,Smith,Smith,21
John,42,42,42
Эти строки печатаются, так как данные в одном поле этих строк происходит в другое поле. Обратите внимание, что «Mary ,,, 21» не было напечатано, даже если оно содержит повторяющиеся пустые поля.
Я могу написать скрипт Python и подсчитывать количество раз, когда каждая запись встречается в каждой строке, но кажется, что должен быть лучший способ сделать это.
Это прекрасно работает, за исключением соответствия на пустые поля. Я извиняюсь! Я должен был быть более конкретным. Есть ли способ сделать это без соответствия пустым полям? – Jake
Этого можно легко позаботиться, добавив условие 'if ($ i! =" ")'. Проверьте обновленный ответ. – anubhava