Я новичок в Apache UIMA, и я пытаюсь построить конвейер NLP с использованием Apache UIMA. Когда пользователь загружает документ (т. Е. Pdf, слова), я хочу извлечь данные с помощью Tika Annotator. Я могу извлечь текст из pdf и других документов с помощью APache Tika, но как написать для этого Annotator и как передать вывод одного аннотатора в качестве входа в другой аннотатор. Я прошел через сайт UIMA Apache, но не смог много захватить с сайта, чтобы использовать его в своем проекте.Использование Apache UIMA для сборки NLP Operation Pipeline
, например, будет иметь Тик Annotator для извлечения текста, а затем выполнить токенизации в TokenAnnotator с использованием выходного Тик Annotator, а затем использовать TokenAnnotator выход в качестве входных данных POS Annotator
Любой помощь будет высоко оценил
Привет, Рана, я думаю, это могло бы помочь, если бы вы могли предоставить более подробную информацию о фактических вариантах использования. Даже если у вас есть токены и POS-тегированные тексты, они не будут очень полезными. Что вы пытаетесь достичь в конце? –
Привет, Я пытаюсь построить трубопровод в UIMA. Фактический пример использования выглядит следующим образом: (1) Вы загружаете какой-то документ в формате pdf, документ Word (2) Вы используете Apache Tika Annotator для извлечения содержимого из документа (3) Использование вывода Tika Annotator для выполнения белого пространства Tokenization (4) Выполнение тегов POS. – Rana
То, что я понял. Но как только у вас есть текинированные тексты и помеченные тегами, какие будут следующие шаги? Поскольку, как правило, эти два шага являются предварительными шагами в конвейере NLP (если оптимизация токенизации и маркировки - это то, над чем вы работаете, но это не было похоже на это). –