Позвольте мне начать с того, что я не хочу печатать только повторяющиеся строки и не хочу их удалять.Использование grep с файлом шаблона: печать одиночных и повторяющихся записей
Я пытаюсь использовать grep с файлом шаблона для синтаксического анализа большого файла данных.
Файл шаблон, например, может выглядеть следующим образом:
1243
1234
1234
1234
1354
1356
1356
1677
и т.д. с более одно- и дублирующихся записей.
файл данныхВходной может выглядеть следующим образом:
aatta 1243 qqqqqq
yyyyy 1234 vvvvvv
ttttt 1555 bbbbbb
ppppp 1354 pppppp
yyyyy 3333 zzzzzz
qqqqq 1677 eeeeee
iiiii 4444 iiiiii
и т.д. для 27000 линий.
когда я использую
grep -f 'Patternfile.txt' 'Inputfile.txt' > 'Outputfile.txt'
я получаю выходной файл, который напоминает это:
aatta 1243 qqqqqq
yyyyy 1234 vvvvvv
ppppp 1354 pppppp
как бы я могу получить также сообщить дубликаты, так что я в конечном итоге с чем-то вроде этого? :
aatta 1243 qqqqqq
yyyyy 1234 vvvvvv
yyyyy 1234 vvvvvv
yyyyy 1234 vvvvvv
ppppp 1354 pppppp
qqqqq 1677 zzzzzz
Кроме того, я бы также хотел напечатать пустую строку, если запрос в файле шаблона не соответствует подстроке во входном файле.
Спасибо!
Спасибо, это очень близко .. Я также пытаюсь иметь его напечатать пустую строку, если шаблон не найден. Но это была тонна помощи до сих пор! – PlutonicFriend
@PlutonicFriend: Как будет выглядеть пустая строка? Добавьте его в свой вопрос, чтобы получить помощь. Я тоже попробую. – Birei
hmm, забавный стиль с 'qq []' :) – gaussblurinc