Вопрос, вероятно, заключается в следующем: каковы преимущества использования DUCC над UIMA-AS, поскольку DUCC является уровнем управления поверх UIMA-AS.
Если вы просто хотите быстро развернуть конвейеры UIMA-AS, вы хорошо разбираетесь в базовой инфраструктуре UIMA-AS (на самом деле UIMA поверх Active MQ, http://activemq.apache.org/). Обратите внимание, однако, что примеры в документации UIMA-AS показывают только, как реализовать параллелизм при обработке, а не при чтении. Это означает, что чтение данных может стать узким местом (если вы не полностью реализуете хранение ваших данных на разных узлах, а также чтение с разных узлов).
Это на самом деле одна из вещей, которые DUCC решает для вас. Если следовать рекомендациям DUCC, ваши данные могут быть распределены с использованием типа WorkItem (который помещается поверх CAS). DUCC может заставить вас сделать это (что хорошо), если вы следуете его методу CollectionReader (который разбивает входные данные на блоки) + CASMultiplier (чтобы сделать реальный метод распределенного чтения), вы можете получить огромное увеличение производительности. Кроме того, DUCC предоставляет вам интерфейс Honeyop, подобный веб-интерфейсу, и некоторые другие приятные функции, такие как выделение памяти на один вычислительный узел.
Если вы планируете запускать много трубопроводов и готовы копать в DUCC, я определенно рекомендую DUCC. Конечно, вам также нужно будет изучить UIMA-AS.
большое спасибо за ваш ответ, это ясно. – ckmrk