2016-05-04 5 views
2

мне нужен мелких синтаксический и глубокого разбор с использованием Stanford CoreNLP. Я много гугл, но не добился успеха. В конце я обнаружил, что есть 2 парсер, Анализатор числа и Анализатор зависимостей.Shallow Синтаксического против Deep Парсинга в Стэнфордский CoreNLP (Java)

Мои вопросы:

Является Окружная Parser неглубоко синтаксический анализатор и зависимость глубоко разборе?

Может ли кто-нибудь поставить код обоих вышеуказанных синтаксических анализаторов и любые полезные ссылки?

+0

Что вы подразумеваете под «мелким» и «глубоким» анализом? Что вы ожидаете получить от каждого из этих парсеров? –

+0

@GaborAngeli: Просто пример с объяснением. Если у вас есть какие-либо идеи относительно этого. – iNikkz

ответ

2

Я предполагаю, что «мелок анализатора» вы имеете в виду фразовый Chunker, как описано здесь: https://en.wikipedia.org/wiki/Shallow_parsing

Stanford CoreNLP не предлагает неглубокий анализатор, а анализатор зависимостей не то.

Я использую chunker OpenNLP и предоставленный Freeling.
Оба отлично работали для моих целей. Мне было легче сбиться с OpenNLP, особенно работая с Clojure, как и я, но в конечном итоге использовал Freeling, потому что у него больше инструментов и, конечно же, доступ ко многим другим языкам.

+0

Как мне известно, Стэнфорд обеспечивает малый синтаксический анализ и глубокий синтаксический анализ. И у него есть лучший парсер среди всех, кроме Stanford CoreNLP, названный такими парсерами что-то еще. Какие фактические имена они предоставили, не знаю. – iNikkz

+0

Вы должны будете сказать нам, что вы подразумеваете под мелким разбором. Вы имеете в виду маркировку семантической роли? Это совсем другая задача ... –

7

Анализ различий по сравнению с анализом зависимостей не имеет ничего общего с различием глубокого и мелкого синтаксического анализа. Они полностью ортогональны

Анализ синтаксиса - это классический синтаксический анализ, когда слова являются листьями в дереве, а нелистные узлы являются составляющими (например, именная фраза, глагольная фраза, предварительная фраза и т. Д.), Но никогда не слова.

Анализ синтаксиса не создает составляющие узлы в дереве. Все узлы в дереве - одно слово предложения. Дерево устанавливает иерархию (фактически декансенсы) между словами.

Дерево окружения может быть детерминировано преобразовано в дерево зависимостей, если головной узел известен для каждого правила. Обратное преобразование невозможно, так как деревья зависимостей не имеют информации о том, какие составляющие должны быть созданы.

С другой стороны, «глубокий синтаксический анализ» относится к построению полных деревьев для предложения (так, что вы обычно ожидаете от парсера), в то время как «мелкий разбор» - это более простая задача, состоящая в построении набора частичных деревья для одного предложения (например, группировка только существительных фраз)

Как правило, анализы зависимостей производят полные деревья (т. е. глубокий разбор), и существуют анализаторы коэффициентов как для глубокого, так и для мелкого анализа. Однако должно быть возможно построить анализатор зависимостей, который произвел частичный (или неглубокий) анализ.