Я тестировал StanfordCoreNLP NER и все на сайте вручную, и, похоже, они зависят от очень специфических/правильных английских сигналов для обнаружения объектов, например. При работе с веб-текстом, хотя, где вы могли бы иметь какой-то текст, какАдаптация StanfordCoreNLP для обработки шумного веб-текста?
John Doe
доцент компьютерных наук
Стэнфордского университета
StanfordNLP, кажется, некоторые проблемы (обозначение всего, что одна организация из-за отсутствия предлогов/пунктуации). Есть ли что-нибудь, что я могу сделать, чтобы позволить NER лучше обрабатывать такой текст (например, выполнить некоторую предварительную обработку текста)?
Но все это не одна организация! Я просто попробовал ваш пример в своем онлайн-демо, и он правильно идентифицирует «Джон Доу» как человека и «Стэнфордский университет» как организацию. – mbatchkarov
Интересно, я не заметил, что были несколько классификаторов, поскольку я использовал 7-класс по умолчанию; 3, кажется, лучше всего работает с общей моделью .. есть ли способ использовать все теги 7-класса, сохраняя при этом точность 3- и 4-класса? – Jess
Я считаю, что у них есть довольно надежный аннотатор предложений, который вы можете настроить для таких случаев. Кроме того, в целом модели ML склонны изучать языковые характеристики и хуже работать на разных стилях/доменах. Я бы предложил обучить новую модель документам из вашего домена. – Yasen