Я работаю над построением на Stanford NER для повышения его точности. Идея состоит в том, чтобы идентифицировать теги POS, а затем собрать все NNP из предложения, а затем перебрать каждый NNP и посмотреть на его смежные слова в предложении. Если есть синтаксические подсказки, присутствующие вокруг слова типа «CEO» или «xyz said», тогда мы знаем, что первый NNP, вероятно, будет именем организации, а второй - человеком. Я пытаюсь создать правила поверх синтаксического анализатора, чтобы идентифицировать те метки, которые не принадлежат тегу NER.Извлечение смежных слов в строке, чтобы помочь повысить точность распознавателя распознанного объекта
До сих пор мне удалось извлечь NNP, но извлечение смежных слов - это то, с чем я сталкиваюсь. В Java или Stanford NER не так много информации, чтобы сделать это, есть некоторые вещи, которые работает с Leucen, как NGramExtractor
Как это сделать в окне? Спасибо за любую помощь. Псевдокод или инструкции также будут делать.