Давайте попробуем отредактированный теггер части речи на Python в пакете nltk
.Провоцируйте теггер частичной речи NLTK, чтобы сообщить о множественном правильном существительном
import nltk
# You might also need to run nltk.download('maxent_treebank_pos_tagger')
# even after installing nltk
string = 'Buddy Billy went to the moon and came Back with several Vikings.'
nltk.pos_tag(nltk.word_tokenize(string))
Это дает мне
[('Buddy', 'ННП'), ('Билли', 'ННП'), ('пошел', 'ДДК'), ('к '', 'TO'), ('the', 'DT'), ('moon', 'NN'), ('and', 'CC'), ('come', 'VBD'), («Назад», «NNP»), ('с', 'IN'), ('несколько', 'JJ'), ('Vikings', 'NNS'), ('.', '.')]]
Вы можете толковать коды here. Я немного разочарован тем, что «Назад» классифицировалось как собственное имя (NNP), хотя путаница понятна. Я больше расстроен тем, что «викинги» называются простым множественным существительным (NNS) вместо множественного собственного существительного (NNPS). Может ли кто-нибудь придумать один пример краткого ввода, который приведет к по меньшей мере одному тегу NNPS?
Я проверил, что вход «Georgia Republicans are ...» успешно провоцирует тег «NNPS». – zkurtz
К вашему вопросу, «Кажется, есть некоторые проблемы с тегами ...», я не удивлен, что теги, возвращаемые тегом «brown» (http://www.comp.leeds.ac.uk/ccalas/ tagsets/brown.html) отличаются от тегов, созданных 'nltk.pos_tag', поскольку последний основан на Penn Treebank corpus, который использует совершенно другой набор тегов (http://cs.nyu.edu/grishman/jet/ руководство/PennPOS.html) – zkurtz