2013-11-19 3 views
4

Я работаю над извлечением имен людей из различных объявлений, появляющихся в английских газетах.Как выполнить обнаружение границ абзаца в инфраструктурах НЛП?

Однако, я заметил, что мне нужно определить границу объявления, прежде чем извлекать имена, присутствующие в нем, так как мне нужно только первое встречающееся имя, которое нужно извлечь. Я начал со Стэнфордского НЛП. Мне удалось извлечь имена. Но я застрял в определении границы абзаца.

Есть ли способ идентификации границы абзаца. ?

+1

Ваш вопрос немного расплывчато. Вы ищете структурные подсказки? Лингвистические подсказки? Пожалуйста, разместите выдержку из вашего корпуса. – Pierre

+0

вот небольшой образец: – kiran

+0

ОБУВЬ. GENERAL WILLIAM H. BROWNELL. Бригадир Гонорал Уильям Х. Браунсу дал второй день после его рождения, № 258 Пон-ст., Бруклин, после болезни совальных дней. В результате его догмы была пневмония. Хо занимал должность помощника Чиофа Орднанка. В соответствии с Положением о Стато при его смерти, ранг Инг как полковник. GEORGE TICKNOR CURTIS, JR. Джордж Тлкнор Кертис, младший, сын Джорго Тткнора Кертиса, известного писателя и внука «Истории справедливости», умер вчера в Филадельфии. Хо уже более года болел плохим здоровьем. – kiran

ответ

0

Это сложная проблема, мы сталкиваемся с одной и той же проблемой в одном из наших проектов. Существуют некоторые теоретические работы, которые помогают детально определить масштаб проблемы и возможные решения. Я включу их ниже.

Мы все еще находимся в процессе R & D, поэтому у нас еще не так много ответов, но мы готовы поделиться тем, что у нас есть, и найти, когда время движется вперед.

Вот одна такая бумага:

Automatic Paragraph Identification: A Study across Languages and Domains

Вот ссылка GitHub для Кодекса ISCIBoost они используют:

Open-source implementation of Boostexter (Adaboost based classifier)