2009-03-03 4 views
11

Мне интересно узнать больше о Natural Language Processing (NLP) и интересно, существуют ли в настоящее время стратегии распознавания собственных существительных в тексте, которые не основаны на распознавании словаря? Кроме того, может ли кто-нибудь объяснить или связать ресурсы, которые объясняют текущие методы на основе словаря? Кто является авторитетными экспертами по НЛП или каковы окончательные ресурсы по этому вопросу?Стратегии распознавания собственных существительных в НЛП

ответ

11

Задача определения правильная часть речи для слова в тексте называется Part of Speech Tagging. Например, Brill tagger использует смесь словарных (словарных) слов и контекстных правил. Я считаю, что некоторые важные начальные словарные слова для этой задачи - это слова остановки. Как только у вас есть (в основном правильные) части речи для ваших слов, вы можете начать строить большие структуры. This industry-oriented book различает распознавание именных фраз (NP) и распознавание названных объектов. О учебниках: Allen's Natural Language Understanding это хорошая, но немного устаревшая книга. Foundations of Statistical Natural Language Processing - хорошее введение в статистическую НЛП. Speech and Language Processing немного более строгий и, возможно, более авторитетный. The Association for Computational Linguistics - ведущее научное сообщество по вычислительной лингвистике.

+0

Спасибо за ресурсы. – VirtuosiMedia

6

Кроме словаря на основе подхода, две другие приходят на ум:

  • шаблонных подходов, основанных (в простой форме: все, что капитализируется является имя собственное)
  • подходов машинного обучения (отметить существительные в учебном корпусе и обучить классификатор)

поле в основном называется извлечением именованных сущность и часто рассматривается как подполе Информатио n извлечение. Хорошая отправная точка для различных областей НЛП, как правило, по главе в Oxford Handbook of Computational Linguistics:

Oxford Handbook of Computational Linguistics http://ukcatalogue.oup.com/images/en_US/covers/medium/9780198238829_140.jpg

+0

А, спасибо за термин «вычеркнутый объект». Иногда выяснение правильных терминов - самая сложная часть, когда вы только начинаете узнавать о чем-то. – VirtuosiMedia

2

Это зависит от того, что вы имеете в виду на основе словаря.

Например, одной стратегией было бы принять вещи, которые не являются в словаре и пытаются исходить из предположения, что они являются правильными существительными. Если это приведет к разумному анализу, рассмотрите предположение, предварительно подтвержденное и продолжающее идти, иначе заключите, что это не так.

Другие идеи:

  • В субъектной позиции, любой простой предмет без определителя является хорошим кандидатом.
  • Ditto в предложных фразах
  • В любом положении, основой притяжательного определителя (например, Боб в «сестра Боба») является хорошим кандидатом

- MarkusQ

+0

Интересное представление о вещах, которых нет в словаре. – VirtuosiMedia

4

Попробуйте найти «распознанное распознавание сущности» - это термин, который используется в литературе НЛП для такого рода вещей.

0

некоторые предлагаемые инструменты: 1. Opennlp: для вашей задачи имеется компонент Named Entity Recognition 2.LingPipe: также компонент NER для него 3. Пакет Stanford NLP: отличный пакет для академического использования, возможно, не коммерческий. 4. nltk: пакет NLP Python

0

если у вас есть предложение типа «кто является воротами счета» И если вы примените к нему часть речевого метки. Это даст ответ, как

"который/WP является/VBZ банкнота/NN ворота/NNS? /."

U можете попробовать это онлайн на http://cst.dk/online/pos_tagger/uk/

Таким образом, вы получаете то, что все существительные в этом предложении. Теперь вы можете легко извлечь эти существительные с помощью некоторого алгоритма. Я предлагаю использовать python, если вы используете обработку на естественном языке. Он имеет NLTK (набор инструментов для естественного языка), с которым вы можете работать.

0

Если вы заинтересованы в осуществлении обработки естественного языка и питон вашего языка программирования, то это может быть очень информативный ресурс: http://www.youtube.com/watch?v=kKe4M4iSclc

0

Хотя это на бенгальском языке, но он может сделать общее процедура определила собственное имя. Поэтому я надеюсь, что это будет полезно для вас. Пожалуйста, ознакомьтесь с приведенной ниже ссылкой: http://www.mecs-press.org/ijmecs/ijmecs-v6-n8/v6n8-1.html