Эта проблема трудно решить процедурно, но значительный прогресс был достигнут в области в последнее время.
Большинство обработки естественного языка начинается с грамматики (которая может быть или не быть свободна от контекста). Его набор правил построения, в котором говорится о том, как более общие вещи сделаны из более конкретных.
пример контекстно-свободной грамматики:
Sentence ::= NounPhrase VerbPhrase
NounPhrase ::= ["The"] [Adjective] Noun
Adjective ::= "big" | "small" | "red" | "green"
Noun ::= "cat" | "man" | "house"
VerbPhrase ::= "fell over"
Это, очевидно, упрощенно, но задача сделать полную грамматику, чтобы определить все английские огромно, и большинство реальных систем только определить некоторое подмножество его применимый к проблемный домен.
После того, как была определена грамматика (или изучена с использованием сложных алгоритмов, известных только для Google), строка, называемая «образцом», анализируется в соответствии с грамматикой. который помещает каждое слово в части речи. грамматика, которая очень сложна, не будет иметь только те части речи, которые вы узнали в школе, но такие категории, как «Веб-сайты», «Имена старых людей» и «ингредиенты».
Эти категории могут быть кропотливо встроены в грамматику людьми или предполагаться с использованием таких вещей, как аналоговое моделирование или поддержка векторных машин. В каждом случае такие вещи, как «курица», «футбол», «барбекю» и «крикет», будут определяться как точки в очень высоком пространственном пространстве, а также миллионы других точек, а затем алгоритмы кластеризации будут определять группы просто основанные на положениях этих точек относительно друг друга. то можно попытаться вывести имена для групп из текста примера.
link text В этом поиске Google перечислены несколько методов, используемых в НЛП, и вы можете узнать много от них.
EDIT просто решить эту проблему, можно сканировать сеть для предложений вида «_ является _», чтобы создать базу данных элемент-категории отношений. то вы разбираете строку, как указано выше, и ищите слова, которые известны в базе данных.
Почему "ЕДА", а не "ПТИЦЫ"? – Gareth
Не могли бы вы дать нам какие-либо обновления о методах, которые вы пробовали и были успешными? – morfara