Treetagger может сделать POS-тегов, а также текст-CHUNKING, что означает извлечение вербальные и номинальные положения, так как в этом немецком примере:Чанкинг с Python-Treetaggerwrapper
$ echo 'Das ist ein Test.' | cmd/tagger-chunker-german
reading parameters ...
tagging ...
finished.
<NC>
Das PDS die
</NC>
<VC>
ist VAFIN sein
</VC>
<NC>
ein ART eine
Test NN Test
</NC>
. $. .
Я пытаюсь выяснить, как это сделать с Treetaggerwrapper в Python (так как это быстрее, чем прямое вызов Treetagger), но я не могу понять, как это делается. Документация относится к комков, как предварительная обработка, поэтому я попытался использовать это:
tags = tagger.tag_text(u"Dieser Satz ist ein Satz.",prepronly=True)
Но выход это просто список слов без добавления информации. Я начинаю думать, что то, что Wrapper называет Chunking, отличается от того, что теггер вызывает Chunking, но, может быть, я просто что-то упустил? Любая помощь будет оценена по достоинству.