2016-06-01 8 views
1

Я выполняю скрипт ruta динамически из проекта Java Maven. Скрипт аннотирует HTML-файл, и результат обрабатывается далее. Теперь, когда coverText содержит HTML-теги между ними, как показано ниже;Как игнорировать MARKUP с выхода ruta или из JCas?

(а + б) < SUP> 2 </SUP> ==> помечается как формула

Но я хочу, это как

(а + б) 2 ==> где есть надпись захвачен как еще одна аннотация и обрабатывается позже.

Как добраться до ожидаемого решения?

+0

В UIMA, текст документа является статическим. Если вы хотите изменить текст, вам нужно создать новое представление/CAS. В ruta есть три компонента, которые могут создать cas с измененным текстом документа: HtmlConverter, RutaModifier, RutaCutter. Если вы хотите обработать его дальше, вам понадобится совокупная AE с картированием дивана. –

+0

Как это сделать? Plz помогите мне с некоторыми кодировками или ссылками. Благодаря ! –

ответ

1

В UIMA текст документа является статическим. Если вы хотите изменить текст, вам нужно создать новое представление/CAS. В ruta есть три компонента, которые могут создать cas с измененным текстом документа: HtmlConverter, RutaModifier, RutaCutter. Если вы хотите обработать его дальше в одном и том же конвейере, вам понадобится совокупный AE с раскладкой дивана (или механизм анализа, поддерживающий диван).

Существует некоторая документация об этих analysis engines и их usage. Существует также example project этих правил и StackOverflow question, где обсуждаются некоторые возможные проблемы. Информацию о картографировании дивана можно найти в UIMA documentation

(ПРЕДУПРЕЖДЕНИЕ: Я разработчик UIMA Рута)