UIMA DUCC vs UIMA на Haoop

Я пытаюсь создать распределенный масштабируемый конвейер на основе UIMA. Как мне решить, используя UIMA DUCC или UIMA на Hadoop? Что я могу пропустить, если я построю его на UIMA DUCC, а не Hadoop или наоборот?UIMA DUCC vs UIMA на Haoop

источник

2015-04-26 kundan

Одно измерение - характеристики приложения. Hadoop будет иметь большое преимущество для интенсивных приложений ввода-вывода. DUCC должен иметь большое преимущество для приложений большой памяти, которым необходимо выполнить несколько копий конвейера в разных потоках для достижения высокой загрузки процессора.

Другое измерение использует UIMA и использует Hadoop. DUCC основывается на базовых возможностях UIMA, предоставляя множество вариантов масштабирования, встроенных показателей производительности и поддержки отладки, основанных на основных компонентах UIMA. Чем сложнее конвейер UIMA, тем больше преимущество для DUCC; например, сложные потоки обработки могут быть реализованы непосредственно в DUCC, но, вероятно, их нужно будет преобразовать для уменьшения карты.

Для тех, у кого достаточный опыт Hadoop, относительно простой аналитик UIMA можно легко интегрировать в существующий магазин Hadoop, не задумываясь о UIMA.

источник

2015-04-28 22:05:25

Спасибо за ответ ... так что можем ли мы сказать, что портирование существующего трубопровода UIMA DUCC на Hadoop потребует минимальных усилий, но переход от Hadoop к UIMA DUCC может потребовать изменения дизайна (и obvioulsy UIMA обучения)? – kundan

Учитывая существующий конвейер UIMA, работающий на Hadoop, мотивация для его перемещения в DUCC может быть плохой загрузкой процессора, накладными расходами между HDFS и традиционными файловыми системами или неустойчивостью Hadoop. –

вы можете проверить эту ссылку

https://uima.apache.org/doc-uimaducc-whatitam.html

в нижней части страницы вы найдете отличия.

источник

2015-04-27 07:25:50

Спасибо за указание ... – kundan

ответ

Смежные вопросы