2016-08-25 5 views
0

Мне нужно создать конвейеры данных в hadoop. У меня есть импорт данных, экспорт, скрипты для очистки данных и настройка их в конвейере.Различные инструменты для создания конвейеров данных

Я использую Oozie для расписания импорта и экспорта данных, но теперь вам необходимо интегрировать R-скрипты для процесса очистки данных.

Я вижу, что сокол используется для того же.

  1. Как установить сокол в cloudera?
  2. Какие еще инструменты доступны для создания конвейеров данных в hadoop?
+0

Вы можете вызвать R из действия оболочки в oozie. – abhiieor

+0

код, если вам нужно 'экспорт двигателя = $ 1 экспорт hive_db = $ 2 экспорт RCODE = NeighborGroupingState.R Rscript --vanilla $ {RCODE} $ 1 $ 2 --hiveconf tez.credentials.path = $ {HADOOP_TOKEN_FILE_LOCATION} --hiveconf mapreduce.job.credentials.binary = $ {HADOOP_TOKEN_FILE_LOCATION} ' – abhiieor

ответ

1

2) Я испытываю желание ответить Nifi от Hortonworks, так как этот post on linkedin он вырос много, и это очень близко, чтобы заменить oozie. Когда я пишу этот ответ, разница между oozie и nifi - это место, где они запускаются: nifi на внешнем кластере и oozie в hadoop.