2015-04-17 3 views
1

Я использовал UIMA в процессе анализа и извлечения информации с текста. Трубопровод не работает с 6 одновременными процессами.UIMA-Ducc vs UIMA-AS

Я думаю, что мне нужно использовать инструмент scaleout, как UIMA-Ducc и UIMA-AS, но я не вижу четко указать, какие.

Когда использовать каждый из них? Каковы их отличия?

ответ

4

Как UIMA Duckbook цитаты

UIMA-AS обеспечивает механизм Масштабное распределять UIMA трубопроводов через кластер вычислительных ресурсов, но не обеспечивает работу или кластера управления ресурсами. DUCC определяет официальную модель работы, которая тесно сопоставляется со стандартным конвейером UIMA. Вокруг этой модели задания DUCC предоставляет службы управления кластерами для автоматизации масштабирования конвейеров UIMA над вычислительными кластерами.

Таким образом, если задача управления заданием/кластером желательно делегировать в структуру, следует использовать UIMA-DUCC, иначе вы можете использовать UIMA-AS.

Чтобы ответить

которые являются их отличия?

duckbook говорит,

DUCC предоставляет другие средства в поддержку масштабируемыми:
1. Возможность резервировать все или часть узла в кластере.
2. Автоматизированное управление услугами, необходимыми для поддержки рабочих мест.
3. Возможность планировать и выполнять произвольные процессы на узлах кластера.
4. Отладочные инструменты и поддержка.
5. Веб-сервер для отображения и управления работой и статусом кластера.
6. CLI и API Java для поддержки вышеуказанного.

+0

большое спасибо за ваш ответ, это ясно. – ckmrk

4

Вопрос, вероятно, заключается в следующем: каковы преимущества использования DUCC над UIMA-AS, поскольку DUCC является уровнем управления поверх UIMA-AS.

Если вы просто хотите быстро развернуть конвейеры UIMA-AS, вы хорошо разбираетесь в базовой инфраструктуре UIMA-AS (на самом деле UIMA поверх Active MQ, http://activemq.apache.org/). Обратите внимание, однако, что примеры в документации UIMA-AS показывают только, как реализовать параллелизм при обработке, а не при чтении. Это означает, что чтение данных может стать узким местом (если вы не полностью реализуете хранение ваших данных на разных узлах, а также чтение с разных узлов).

Это на самом деле одна из вещей, которые DUCC решает для вас. Если следовать рекомендациям DUCC, ваши данные могут быть распределены с использованием типа WorkItem (который помещается поверх CAS). DUCC может заставить вас сделать это (что хорошо), если вы следуете его методу CollectionReader (который разбивает входные данные на блоки) + CASMultiplier (чтобы сделать реальный метод распределенного чтения), вы можете получить огромное увеличение производительности. Кроме того, DUCC предоставляет вам интерфейс Honeyop, подобный веб-интерфейсу, и некоторые другие приятные функции, такие как выделение памяти на один вычислительный узел.

Если вы планируете запускать много трубопроводов и готовы копать в DUCC, я определенно рекомендую DUCC. Конечно, вам также нужно будет изучить UIMA-AS.

+0

очень благодарю за ваш ответ. – ckmrk

5

UIMA-AS предоставляет механизмы для развертывания трубопровода UIMA. По сути, UIMA-AS позволяет пользователям ставить очередь перед компонентом UIMA, чтобы он мог работать в другом потоке или в другом процессе. UIMA-AS обрабатывает потоки и межпроцессный транспорт CASes. Помимо некоторых простых сценариев bash, UIMA-AS не обеспечивает управление жизненным циклом для пользовательских процессов.

DUCC - это контроллер кластера, который, помимо прочего, обеспечивает управление жизненным циклом услуг UIMA-AS. DUCC также предоставляет механизм для масштабирования конвейера UIMA с несколькими потоками и несколькими процессами и подачи работы на экземпляры конвейера; это называется заданием DUCC. Задачи DUCC создаются из основных компонентов UIMA, не требуется знание UIMA-AS.

1

Ответ на ваш вопрос на очень удобном языке: «DUCC - это ответ всего узкого места, с которым вы можете столкнуться в UIMA или UIMA AS».

В DUCC мониторинг может быть возможен с легкостью, а также вы можете определить размер памяти процесса и количество потоков в процессе, просто изменив файл описания заданий.

Другое преимущество DUCC над Uima-as теперь CR также можно масштабировать с помощью Job Driver.

+0

Вам также нужно понимать Uima-first. Тогда вы сможете понять Ducc. –