2016-03-01 9 views
2

Между Apache Oozie, Spotify/Luigi и airbnb/airflow, каковы плюсы и минусы для каждого из них?Предложение для инструмента (-ов) планирования для построения трубопроводов данных на основе hadoop

Я использовал oozie и воздушный поток в прошлом для создания трубопровода для подачи данных с использованием PIG и Hive. В настоящее время я занимаюсь разработкой конвейера, который просматривает журналы и извлекает полезные события и ставит их на красное смещение.

Я обнаружил, что воздушный поток был намного проще в использовании/испытании/настройке. Он имеет гораздо более крутой интерфейс и позволяет пользователям выполнять действия самого пользовательского интерфейса, что не относится к Oozie. Любые сведения о Луиджи или другие идеи относительно стабильности и проблем приветствуются.

+1

http://bytepawn.com/luigi-airflow-pinball.html - Oozie отсутствует, но это хорошее сравнение в любом случае. –

ответ

3
  • Azkaban: Nice UI, относительно простой, доступный для не-программистов. Имеет долгую историю в LinkedIn.
  • Воздушный поток: Достойный пользовательский интерфейс, определение задания Python-ish, полудоступное для не-программистов, синтаксис объявления зависимостей является странным.
  • Luigi: ОК UI, рабочие процессы - это чистый Python, требует четкого понимания кодирования Python и объектно-ориентированных концепций, поэтому не подходит для не-программистов.
  • Oozie: Определения определений, основанные на использовании XML. Здесь будут драконы. ;-)

IMHO, Azkaban обеспечивает простоту (не может использовать функции, которых не существует), а другие тонко поощряют сложность.

Простые трубопроводы лучше сложных трубопроводов: проще создавать, легче понять (особенно когда вы их не создали) и проще отлаживать/исправлять.

Когда необходимы сложные действия, вы хотите их инкапсулировать так, чтобы они полностью или полностью не удались.

Если вы можете сделать это идемпотентным (запуск его снова создает идентичные результаты), то это еще лучше.