2016-04-26 3 views
2

Как мы можем аннотировать символ юникода в uima ruta: Пример: Я хочу отметить этот текст (Париж: Ã ‰ ditions Robert Laffont). Поэтому я использовал следующее правило ,Как мы можем аннотировать символ Юникода в uima ruta

DECLARE CITY; 
CW COLON CW+{->MARK(CITY,1,3)}; 

Но текст, прикрытый до Парижа: Ã. Есть ли способ решить эту проблему. Ожидает ответа. Спасибо заранее.

+0

Я сталкивался с подобной проблемой для EN DASH (юникод = â € "). Я использовал SW SPECIAL + {-> MARK (HYPHEN_UNICODE, 1,2)}; Так что проблема решена. Это единственный способ решить проблему. Orelse есть другое решение. –

ответ

1

Все о нем определение lexer, которое создает аннотации класса маркера руты (W, CW, SPECIAL ...).

Правило CW COLON CW+{->MARK(CITY,1,1)}; создает аннотацию типа CITY для интервала текста Paris независимо от символа юникода.

Последнее правило элемент CW+ матчи на Ã, так как это аннотированный с CW, но там останавливается, так как не CW, но SPECIAL.

Существуют различные способы избежать этой проблемы. Мой совет будет заключаться в том, что вы должны полагаться на разные типы аннотаций для своих правил. Работа аннотаций lexer в руте заключается в создании минимальных аннотаций. Они вообще не определяют токенов.

Вы могли бы, возможно, использовать что-то вроде этого (или использовать фактическую Tokenizer для лучшей производительности):

DECLARE CITY; 
DECLARE Token; 

RETAINTYPE(SPACE); 
(W (SPECIAL? W)*){-> Token}; 
RETAINTYPE; 

Token COLON Token+{->MARK(CITY,1,1)}; 

ОТКАЗ: Я разработчик UIMA Ruta

+0

Привет, Питер за ваш ответ. У меня возникло сомнение в этом правиле Line {-REGEXP («CORA:. *») -> MARK (Reference)}; Что такое CORA:. * Означает –

+0

Можете ли вы вкратце объяснить об аннотациях Html, Html-конверторе и TEIViewWriter с некоторыми примерами. Поскольку я пробовал это, но получил некоторые сообщения об ошибках. –

+0

Объяснение примерами довольно проблематично в этом разделе комментариев. Лучше всего, спросите об этом в списке рассылки пользователей UIMA (или создайте новый вопрос здесь в stackoverflow). –