Я выполняю скрипт ruta динамически из проекта Java Maven. Скрипт аннотирует HTML-файл, и результат обрабатывается далее. Теперь, когда coverText содержит HTML-теги между ними, как показано ниже;Как игнорировать MARKUP с выхода ruta или из JCas?
(а + б) < SUP> 2 </SUP> ==> помечается как формула
Но я хочу, это как
(а + б) 2 ==> где есть надпись захвачен как еще одна аннотация и обрабатывается позже.
Как добраться до ожидаемого решения?
В UIMA, текст документа является статическим. Если вы хотите изменить текст, вам нужно создать новое представление/CAS. В ruta есть три компонента, которые могут создать cas с измененным текстом документа: HtmlConverter, RutaModifier, RutaCutter. Если вы хотите обработать его дальше, вам понадобится совокупная AE с картированием дивана. –
Как это сделать? Plz помогите мне с некоторыми кодировками или ссылками. Благодаря ! –