2017-01-14 13 views
0

Образец Приговоренныйзапросов Анализ для определения взаимосвязи между словами с помощью обработки естественного языка

а) Кто является генеральным директором IBM?

b) Где находится офис IBM?

Ряд операций применяется к вышеуказанному предложению, используя токенизацию, пометку и фрагментацию для извлечения отношений.

Кто является Сео из IBM - (Извлеченный кортеж) -> [Кто, Сео из IBM]

Где является IBM офиса, расположенным - (Извлеченный кортеж) - -> [Где находится офис IBM Office]

Из экстрагированных зависимостей, как я могу определить, о чем идет речь? Как слова WP и WHP слова в предложении указывают, что какой запрос должен быть сделан для извлечения данных из набора данных на основе знаний.

как в a) Кто указывает на имя, место или любую другую именованную сущность.

и в b) Где указывает на имя, место или любое другое именованное лицо.

Любые советы по использованию методов обработки естественного языка или интеллектуального анализа текста высоко оценены.

ответ

0

Это зависит от изменчивости предложений ввода, которые вы ожидаете. Для примеров, которые вы даете, вы можете использовать очень простое сопоставление шаблонов. Просто настройте несколько шаблонов, таких как

WHO IS ...? -> [who, ...] 
WHERE IS ...? -> [where, ...] 
WHERE CAN I FIND ...? -> [where, ...] 

И затем используйте сопоставление строк, чтобы найти эти шаблоны в ваших входных данных. Можно даже использовать регулярные выражения, если это необходимо:

s/who is \(.*\)/[who, \1]/ 

(с помощью поиска СЕПГА стиля и заменить здесь)

Это, конечно, соответствует только тем конкретным примерам, но если большинство ваших данных выглядит она, вам может не понадобиться полномасштабный подход NLP. Вы всегда можете добавить больше подобных шаблонов, хотя в какой-то момент это может стать неуправляемым. Тем не менее, это может дать вам достаточно далеко для вашей конкретной проблемы.

Вы можете, конечно, провести полный синтаксический анализ, но это может быть слишком много излишков. Правильный подход полностью зависит от вашего варианта использования.

+0

Я понял, что это зависит от контекста и разнообразия вопросов. Не могли бы вы уточнить, что как определить тип лексического ответа из заданного набора вопросов? 'КТО ...? -> [who, ...] ГДЕ ЕСТЬ ...? -> [где, ...] ГДЕ НАХОДИТЬСЯ ...? -> [где, ...] ' Как я могу понять, какой вид объекта представляется вопрос, как ' Кто ---> Человек, Где ---> Location' Как я могу понять, от вопроса, что в центре внимания ** кто ** и **, где ** в вопросах. –