У меня есть большой файл (50 ГБ), и я могу рассчитать количество вхождений разных строк в нем. Обычно я хотел бы использоватьПоиск замены uniq -c для больших файлов
sort bigfile | uniq -c
но файл достаточно велик, что сортировка требует непомерно много времени и памяти. Я мог бы сделать
grep -cfx 'one possible line'
для каждой уникальной строки в файле, но это будет означать п проходит через файл для каждой возможной линии, которая (хотя и гораздо больше памяти дружественной) занимает даже больше, чем оригинал.
Любые идеи?
related question спрашивает о пути к найти уникальные строки в большой файл, но я искал способ подсчета число экземпляров каждого - я уже знаю, что это возможно линии.
Хеш с awk? – Cyrus
Возможно, это вырожденный случай http://stackoverflow.com/questions/3502177/how-to-count-number-of-unique-values-of-a-field-in-a-tab-delimited-text- файл; ответ http://stackoverflow.com/a/22250460/14122 в значительной степени соответствует тому, что у нас уже есть, только выбирая столбец, а не используя всю строку. –