Я пытаюсь написать сценарий для сравнения 2 больших файлов на основе столбца 2. Каждый файл содержит около 1 миллиона записей. Для выхода, мне нужно знать, какие записи являются общими в колонке 2 (существует на обоих файлах), но имеют разное значение в столбце 1. Файлы указаны через запятую файлы значениеСравнение файлов на основе столбца
File1_pair
20151026,1111
20141113,2222
20130102,3333
77777777,9999
File2_pair
20151026,1111
20203344,2222
50506677,3333
77777777,8888
Desired_output
20141113,2222,20203344
20130102,3333,50506677
Я пытался модифицировать ниже сценарий но не в состоянии понять это правильно.
awk 'FNR==NR { a[$0]; next } !($2) in a { c++ } END { print c }' file1_pair file2_pair`
Являются ли значения во втором столбце ** точно ** общим между двумя файлами? В том же порядке и оба имеют одинаковое значение на каждой строке? –
нет, значение в столбце 2 из обоих файлов может быть разным и не совпадает с порядком. – Jimbo
Но значения в столбце два по крайней мере уникальны? –