Я использую TreeTagger (http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/) для извлечения существительных из текста. Моя проблема заключается в том, что выход отформатирован как таковой:Bash: Извлечь ячейки из результатов, отформатированных как таблица
word pos lemma
The DT the
TreeTagger NP TreeTagger
is VBZ be
easy JJ easy
to TO to
use VB use
с по-видимому, не вариант, чтобы получить существительные только («NP» и «НН»). С bash, как я могу получить ячейки в первом столбце с «NP» или «NN» во втором столбце?
или 'awk '$ 2 ~/^ (NP | NN) $/{print $ 1}' file' – Cyrus
Это здорово, как перенаправить существительные в массив вместо файл? – Sulli
Для использования массива: 'arr = ($ (awk '$ 2 ~/^ N [PN] $/{print $ 1}' файл))' – anubhava