2016-01-21 3 views
3

Я понимаю концепции HDFS и Map Reduce и как важно переместить логику обработки в данные для повышения эффективности. Я даже смог запустить пару работ по сокращению карты на моем базовом кластере Hadoop. В окружении этих концепций существует много разных технологий, таких как YARN, HUE, OOZIE, все из которых, похоже, делают одно и то же (по крайней мере, с очень высокого уровня), что является видимостью работы и возможностями CRUD для заданий (которые могут быть уменьшены по карте или что-то другое).В чем разница между HUE, YARN и OOZIE

Правильно ли я принимаю это предположение или существует гораздо более фундаментальное различие между ними?

Благодаря Kay

ответ

2

ПРЯЖА - Карта Уменьшить это API, где вы должны реализовать логику обработки данных в нем. После компиляции кода вы должны отправить задания с помощью команды hadoop jar. YARN - это структура, которая будет отслеживать ресурсы, отправлять задания в кластер, выполнять задание, показывать/регистрировать прогресс.

OOZIE - Примите пример интеграции данных. Возможно, вам придется получить набор данных из одной базы данных и других данных из другой базы данных, затем вы хотите присоединиться, обработать данные и перезагрузить их в кеш или третью базу данных. Он включает в себя 2 задания sqoop, чтобы извлекать данные из базы данных, работу по улей/карте для объединения и обработки данных, а затем входить в кеш/базу данных. Все эти задания зависят друг от друга, например: мы должны обрабатывать данные только после того, как данные извлекаются из исходных баз данных. Следовательно, нам необходимо создать рабочий процесс для выполнения полного процесса интеграции данных. OOZIE может это облегчить. Это инструмент для преобразования на основе сокращения на карте. Рабочий процесс сам будет выполняться как одно или несколько заданий с уменьшением количества карт.

HUE: В Hadoop имеется множество инструментов - HDFS (файловая система), Sqoop, Hive/pig для обработки данных, Impala, HBase и многих других. Для выполнения POC может потребоваться утомительное подключение к кластеру. Также ему нужны некоторые навыки Linux. Чтобы преодолеть эти проблемы, все инструменты системы Hadoop eco объединяются под одним зонтиком, называемым Hue.

+0

Спасибо за ваше объяснение. Я вижу, что рабочие процессы OOZIE преимущественно представлены через интерфейс командной строки. Пользовательский интерфейс OOZIE, похоже, не предлагает создание/предоставление возможностей рабочего процесса. HUE, с другой стороны, похоже, обладает большим интерфейсом сглаживания и позволяет нам создавать и отправлять рабочие процессы OOZIE. Правильно ли я понимаю? Что дает нам более оперативную видимость в системе (с точки зрения того, какие рабочие/рабочие процессы запущены, которые не удались, кто использует ресурсы hogging и т. Д.) OOZIE или HUE –