2016-11-01 10 views
0

Я использую Markfast нижеTagging Markfast

Сценарий:

WORDLIST PARTICLESLIST = 'NameswithParticles.txt'; 
DECLARE PARTICLES; 
Document{ -> MARKFAST(PARTICLES, PARTICLESLIST,true)}; 

NameswithParticles.txt:

der 
Der 
de 
De 
d' 
D' 
De la 
de La 
de la 
von 
Von 
van 
Van 
ten 
La 
la 
Le 
le 
L' 
St 
Al 
al 
O' 

Пример ввода:

1.der Waals radius 
2.van Minh 
3.Der Brul 
4.de Brul 

Он отмечает все вышеупомянутые имена частиц, кроме der и Der.

+0

Я не могу воспроизвести проблему. Я получаю четыре аннотации «ЧАСТИЦЫ». Если «MARKFAST» пропускает совпадения, в моем примере есть наиболее вероятные пробелы в txt-файле. –

+0

@ PeterKluegl, я попробовал вышеуказанный вопрос. Я также столкнулся с тем же вопросом –

+0

Какую версию UIMA Ruta вы используете? (Я использовал 2.5.0) –

ответ

1

Да, это из-за пробелов. Так активно dictRemoveWS в параметре конфигурации. Посмотрите комментарии для получения более подробной информации. Wordlist -uima ruta

+0

Как настроить dictRemoveWS в самом скрипте – prasanth

+0

Это открытая проблема. Невозможно установить это по правилам, только в параметрах конфигурации –