2016-05-13 6 views
5

У меня есть состав из нескольких 100-тысячных юридических документов (в основном из Европейского Союза) - законы, комментарии, документы суда и т. Д. Я пытаюсь алгоритмически осмыслить их.НЛП юридических текстов?

Я смоделировал известные отношения (временные, это-изменения-это и т. Д.). Но на уровне одного документа, я бы хотел, чтобы у меня были лучшие инструменты, позволяющие быстро понять. Я открыт для идей, но вот более конкретный вопрос:

Например: существуют ли методы НЛП для определения соответствующих/противоречивых частей документов в отличие от шаблона? Недавно просочившиеся документы TTIP - это тысячи страниц с таблицами данных, но одно предложение где-то там может уничтожить отрасль.

Я играл с новыми Parsey McParface Google и другими решениями НЛП в прошлом, но пока они работают впечатляюще хорошо, я не уверен, насколько они хороши в изоляции смысла.

ответ

1

Я вижу, у вас есть интересный вопрос. Вы также упомянули о наличии корпуса (который действительно хороший плюс). Позвольте мне рассказать о решении, которое я набросал для извлечения сущности из исследовательских работ.

Чтобы понять смысл документов, вам нужны триггеры, чтобы рассказать (или обучить) компьютер, чтобы найти эти триггеры. Вы можете приблизиться к этому с помощью контролируемого алгоритма обучения с простой реализацией проблемы классификации текста на самом базовом уровне. Но для этого потребуется предварительная работа, сначала помощь экспертов домена для определения «триггеров» из текстовых данных. Существуют инструменты для извлечения сущностей предложений - например, принимать существительные фразы в предложении, назначать веса на основе совпадений и представлять их как векторы. Это ваши данные о тренировках. Это может быть действительно хорошим началом включения НЛП в ваш домен.

-4

Не используйте триггеры. То, что вам нужно, это осознание смысла слова и адаптация домена. Вы хотите понять, находится ли в документах. Я понимаю семантику, чтобы понять смысл. Вы можете создать легальную онтологию терминов в skos или json-ld формате, чтобы они отображались онтологически в графе знаний и использовали его с анализом зависимостей, например, с тензорным потоком/parseymcparseface. Или вы можете передавать свои документы с использованием архитектуры на основе kappa - что-то вроде kafka-flink-elasticsearch с добавленными промежуточными уровнями NLP с использованием CoreNLP/Tensorflow/UIMA, кешируйте настройку индексирования между flink и elasticsearch, используя redis для ускорения процесса. Чтобы понять релевантность, вы можете применять конкретные случаи от повышения в своем поиске. Кроме того, примените анализ настроений для разработки намерений и правдивости. Ваш прецедент является одним из средств извлечения информации, обобщения и семантических веб-данных. Поскольку у ЕС есть другая правовая система, вам необходимо сначала обобщить то, что действительно является юридическим документом, а затем сузить его до конкретных правовых концепций, поскольку они относятся к теме или региону. Вы также можете использовать здесь методы моделирования тем из LDA или Word2Vec/Sense2Vec. Кроме того, Лимон может также помочь в преобразовании лексики в семантику и семантику в лексическую. NLP-> онтология -> онтология -> НЛП. По существу, подавайте кластеризацию в свою классификацию распознанного имени. Вы также можете использовать кластеризацию, чтобы помочь вам в построении онтологии или увидеть, какие векторы вектора находятся в документе или наборе документов, используя сходство с косинусом. Но для того, чтобы сделать все, что лучше всего отобразить словосочетание ваших документов. Что-то вроде разумного здравого смысла + глубокое обучение может помочь и в вашем случае.

3

Для того, чтобы понять смысл документов, вам нужно выполнить какой-то семантический анализ.У вас есть две основные возможности с их exemples:

Использование семантику кадров: http://www.cs.cmu.edu/~ark/SEMAFOR/

Использование Семантический Роль Этикетировочные (SRL): http://cogcomp.org/page/demo_view/srl

После того, как вы можете извлечь информацию из документов, то вы можете примените некоторую пост-обработку, чтобы определить, какая информация релевантна. Поиск релевантной информации связан с задачей, и я не думаю, что вы можете найти общий инструмент, который извлекает «соответствующую» информацию.