Мне нужно создать конвейеры данных в hadoop. У меня есть импорт данных, экспорт, скрипты для очистки данных и настройка их в конвейере.Различные инструменты для создания конвейеров данных
Я использую Oozie для расписания импорта и экспорта данных, но теперь вам необходимо интегрировать R-скрипты для процесса очистки данных.
Я вижу, что сокол используется для того же.
- Как установить сокол в cloudera?
- Какие еще инструменты доступны для создания конвейеров данных в hadoop?
Вы можете вызвать R из действия оболочки в oozie. – abhiieor
код, если вам нужно 'экспорт двигателя = $ 1 экспорт hive_db = $ 2 экспорт RCODE = NeighborGroupingState.R Rscript --vanilla $ {RCODE} $ 1 $ 2 --hiveconf tez.credentials.path = $ {HADOOP_TOKEN_FILE_LOCATION} --hiveconf mapreduce.job.credentials.binary = $ {HADOOP_TOKEN_FILE_LOCATION} ' – abhiieor