2010-12-28 10 views
1

Какие существуют методы, которые могут различать простые простые фразы, такие как «к», «и» и «фразы и идиомы», которые имеют свои лексические значения, такие как «забрать», «влюбиться», красная сельдь "," тупик "?Как просеивать идиомы и фразы, кроме других распространенных фраз, используя методы НЛП?

Есть ли методы, которые успешны даже без словаря, статистические методы HMMs тренируются на больших корпусах, например?

Или существуют эвристики, такие как игнорирование или утяжеление «неразборчивых» слов, которые могут происходить примерно с любым словом или словами, которые встречаются либо отдельно, либо в определенном ограниченном наборе идиоматических фраз?

Если есть такие эвристики, как мы принимаем во внимание заданные фразы и словесные фразы, которые включают в себя неразборчивые слова, такие как «вверх» в «избиении», «съедать», «садиться», «придумывать» «?

UPDATE

Я нашел интересную статью в Интернете: Unsupervised Type and Token Identification of Idiomatic Expressions

ответ

2

вы ищете для обнаружения коллокаций?

Взгляните на this глава в отличной книге, Основы обработки естественного языка Manning & Schütze.

+0

Well collocations - это более широкое поле, чем идиомы, но более узкие, чем обычные фразы, поэтому спасибо за ссылку. – hippietrail