Я использую по умолчанию теги POS и токенирование по умолчанию .. и кажется достаточным. Я бы хотел, чтобы их стандартный chunker тоже.Что представляет собой наборщик по умолчанию для набора инструментов NLTK в Python?
Я читаю книгу инструментов NLTK, но похоже, что у них нет стандартного chunker?
Что делать, если я не очень беспокоюсь о named_entities, но в целом. Например, «желтая собака» - это кусок, а «работает» - это кусок. – TIMEX
Да, для этого нет никаких оснований для моих знаний (хотя, конечно, я не знаю все о nltk). Вы можете использовать RegexpChunkParser, хотя вам придется разрабатывать правила самостоятельно. Вот пример: http://gnosis.cx/publish/programming/charming_python_b18.txt – ealdent