2016-09-22 2 views
0

Я использовал следующий код, чтобы обучить ClassifierBasedPOSTagger для POS мечения:Где я могу найти все определения тегов тегов POS для ClassifierBasedPOSTagger в NLTK?

from nltk.classify import MaxentClassifier 
from nltk.tag.sequential import ClassifierBasedPOSTagger 

me_tagger = ClassifierBasedPOSTagger(train=train_sents, classifier_builder=lambda train_feats: MaxentClassifier.train(train_feats, max_iter=15)) 
print(me_tagger.tag('My new watch is awesome...'.split())) 

, которая выводит следующие теги:

[('My', 'PP$'), ('new', 'JJ'), ('watch', 'NN'), ('is', 'BEZ'), ('awesome...', 'AT')] 

Где я могу найти токен определения тегов для данного классификатора? Однако я знаком с токенами these, но я не могу сконструировать BEZ и AT.

+3

The Brown Corpus Tag-набор - http://www.scs.leeds.ac.uk/amalgam/tagsets/brown. html – RAVI

+0

@ravi вы должны написать свой отзыв –

+0

@NathanMcCoy добавил это как ответ. – RAVI

ответ

2

Вы можете проверить - The Brown Corpus Tag-set.

╔═════╦═════════════════════╦════════════════════╗ 
║ Tag ║ Description   ║ Examples   ║ 
╠═════╬═════════════════════╬════════════════════╣ 
║ AT ║ article    ║ the an no a every ║ 
║  ║      ║ th' ever' ye  ║ 
╠═════╬═════════════════════╬════════════════════╣ 
║ BEZ ║ verb "to be",  ║ is     ║ 
║  ║ present tense,  ║     ║ 
║  ║ 3rd person singular ║     ║ 
╠═════╬═════════════════════╬════════════════════╣ 
║ ... ║ ...     ║ ...    ║ 
╚═════╩═════════════════════╩════════════════════╝ 
1

Вы должны понимать, что набор тегов не имеет ничего общего с классом классификатора, который вы выбрали; набор тегов поступает из ваших данных обучения. Таким образом, ваш вопрос должен был быть «где я могу найти определения тегов для (это POS-tagged corpus)». Вы не говорите, откуда пришел ваш train_sents, но действительно (как уже указывал @RAVI) эти теги, похоже, исходят из корпуса Брауна; Вы можете прочитать его документацию online, множества ярлыков или извлекать его внутри NLTK, как это:

>>> nltk.help.brown_tagset("BEZ") 
BEZ: verb 'to be', present tense, 3rd person singular 
    is 
>>> nltk.help.brown_tagset() # All tags 
...