2012-05-09 3 views
1

У меня есть комплект финансовых документов (депозитные документы с фиксированными условиями, документы кредитной карты). Я хочу автоматически идентифицировать и пометить финансовые лица/инструменты в этих документах.Stanford parser-tagging с финансовыми инструментами

Например, если документ содержит эту фразу «оставляет за собой право погасить проценты без предварительного уведомления». Я хочу определить финансовый термин, связанный с ним, и пометить его, поскольку это предложение «Callable». Для этой фразы «разрешить преждевременный вывод» соответствующий финансовый термин «допустимый», поэтому, если эта фраза содержится в документах, я хочу пометить ее термином «допустимый».

Финансовые условия будут исходить от, Financial Industry Business Ontology. Есть ли возможность использовать парсер Stanford для этой цели? Могу ли я использовать POS-теггер для этой цели? Мне, возможно, придется обучать парсер Стэнфорда финансовыми инструментами. Если возможно, как я могу обучить парсер Стэнфорда определять финансовые инструменты?

ответ

6

Парсер или часть речевого теггера из коробки не будут идентифицировать такие специфические концепции домена, как эти. Тем не менее, анализ естественного языка, который они предоставляют, может быть полезным строительным блоком для решения. Или если фразы, которые вам нужно идентифицировать, достаточно близки к фиксированным фразам, они могут оказаться ненужными, и вам следует сосредоточиться на поиске фиксированных фраз и их классификации.

Хотя они не являются «именованными объектами», проблема ближе к названному распознаванию объектов, поскольку вы распознаете классы семантической фразы. Вы могли бы либо аннотировать примеры фраз, которые вы хотите найти, так и обучить модель с помощью распознавателя имени (например, Stanford NER) или написать правила, которые соответствуют экземплярам (используя что-то вроде ANNIE в GATE или TokensRegexPattern в GATE или в StanfordRegexPattern.

2

Вам нужно разобрать все предложение, из которого вы должны определить значения. Затем отметьте значения и определите существительное, глагол и т. Д.

Вы можете воспользоваться отображаемым образцом вывода here. Используя вы можете анализировать и идентифицировать термины, используя словарные термины, которые вам придется разрабатывать.

Вы также можете использовать API тех же here

Надеются, что это поможет вам.

1

Маркировка POS . будет trasnform текстовых файлов в файлы XML Простого способа для достижения POS тегов и имя распознавания объектов является:.

import java.io.IOException; 
import edu.stanford.nlp.pipeline.StanfordCoreNLP; 

public class POSTagging{ 
    public static void main(String[] args) { 
    String arguments= "-annotators tokenize,ssplit,pos,lemma,ner -filelist ./filelist/filelist.txt -outputDirectory ./annotated"; 
    String[] commArgs=arguments.split(" "); 
    try { 
     StanfordCoreNLP.main(commArgs); 
    } catch (IOException e) { 
     e.printStackTrace(); 
    } catch (ClassNotFoundException e) { 
     e.printStackTrace(); 
    } 
    } 
} 

После запуска этого вы будете иметь ваш аннотированные файлы XML вы должны анализировать их с помощью JAXP или что-то подобное.

 Смежные вопросы

  • Нет связанных вопросов^_^