Учитывая конечный словарь сущностных терминов, я ищу способ сделать Entity Extraction с помощью интеллектуальных меток с использованием Lucene. В настоящее время я был в состоянии использовать Lucene для:
- Поиск сложных фраз с некоторым fuzzyness
- результаты ПодчеркиваяLucene Entity Extraction
Однако, я не в курсе, как:
-get точных смещений совпавших фраз
-У объектное конкретное annotaions за матч (не только тегов для каждого удара)
Я попытался с помощью объяснения() метода - но это дает только условие в запросе, который получил хит - не смещения попадания в исходный текст.
Неужели кто-нибудь сталкивался с подобной проблемой и готов поделиться потенциальным решением?
Заранее благодарю вас за помощь!
Вышесказанное должно получить смещение за один срок, однако мне нужно смещение полной фразы, которая соответствует моему поиску. Что касается хранимого поля, как мне получить данные непосредственно из него для каждого из словарных фраз? –
@Dima_F: Я добавил код, чтобы показать, как использовать сохраненные поля. wrt фраза смещения: я не думаю, что вы можете. Вы можете взглянуть на то, что делает [ярлык] (http://www.docjar.org/html/api/org/apache/lucene/search/vectorhighlight/SimpleFragListBuilder.java.html), но лучшим выбором может быть для модификации кода маркера, чтобы вернуть смещение. – Xodarap
Большое вам спасибо за помощь! Я дам вам знать, где я могу получить модификацию Highlighter. –