Как отличить function/structure words and content/lexical words?Функция vs Content Words
Я уже использую StanfordCoreNLP, поэтому я хотел бы использовать его, если это возможно.
В частности, что следует использовать annotator и как он будет обозначать содержание/лексические слова?
Я пробовал pos
, но он не различает слова функции и содержания.
PS. Я использую аннотатор lemma
, чтобы получить слова, которые я хочу игнорировать.
PPS. Я использую pyconlp
.
Если вы используете версию Stanford CoreNLP от GitHub, мы распределяем с ней список стоп-слов. На этом пути: https://github.com/stanfordnlp/CoreNLP/blob/master/data/edu/stanford/nlp/patterns/surface/stopwords.txt – StanfordNLPHelp
В этой ссылке показан пример использования API в Java: http : //stanfordnlp.github.io/CoreNLP/api.html – StanfordNLPHelp
Итак, одно можно сделать, это прорежировать маркеры и посмотреть, находятся ли они в списке стоп-слов. – StanfordNLPHelp