Я пытаюсь создать распределенный масштабируемый конвейер на основе UIMA. Как мне решить, используя UIMA DUCC или UIMA на Hadoop? Что я могу пропустить, если я построю его на UIMA DUCC, а не Hadoop или наоборот?UIMA DUCC vs UIMA на Haoop
ответ
Одно измерение - характеристики приложения. Hadoop будет иметь большое преимущество для интенсивных приложений ввода-вывода. DUCC должен иметь большое преимущество для приложений большой памяти, которым необходимо выполнить несколько копий конвейера в разных потоках для достижения высокой загрузки процессора.
Другое измерение использует UIMA и использует Hadoop. DUCC основывается на базовых возможностях UIMA, предоставляя множество вариантов масштабирования, встроенных показателей производительности и поддержки отладки, основанных на основных компонентах UIMA. Чем сложнее конвейер UIMA, тем больше преимущество для DUCC; например, сложные потоки обработки могут быть реализованы непосредственно в DUCC, но, вероятно, их нужно будет преобразовать для уменьшения карты.
Для тех, у кого достаточный опыт Hadoop, относительно простой аналитик UIMA можно легко интегрировать в существующий магазин Hadoop, не задумываясь о UIMA.
вы можете проверить эту ссылку
https://uima.apache.org/doc-uimaducc-whatitam.html
в нижней части страницы вы найдете отличия.
Спасибо за указание ... – kundan
Спасибо за ответ ... так что можем ли мы сказать, что портирование существующего трубопровода UIMA DUCC на Hadoop потребует минимальных усилий, но переход от Hadoop к UIMA DUCC может потребовать изменения дизайна (и obvioulsy UIMA обучения)? – kundan
Учитывая существующий конвейер UIMA, работающий на Hadoop, мотивация для его перемещения в DUCC может быть плохой загрузкой процессора, накладными расходами между HDFS и традиционными файловыми системами или неустойчивостью Hadoop. –