4

Существующий процесс - данные исходной структуры копируются в промежуточный слой Redshift. Затем используйте инструменты ETL, такие как Informatica, Telend, для поэтапной загрузки в таблицу фактов и измерений Datamart/datawarehouse. Все соединения происходят в пределах слоя базы данных (ETL толкает запросы в БД) - Может ли Spark заменить инструмент ETL и выполнить ту же обработку и загрузку данных в Redshift? - В чем преимущества и недостатки этой архитектуры?Can Spark Replace ETL Tool

+2

Посмотрите это видео на Spark Summit https://www.youtube.com/watch?v=vZhSbs1xLx4 :) –

+1

Мое понимание интеграции данных с использованием красного смещения заключается в том, что это ELT - извлечение, загрузка, преобразование. Для этого вам не нужен инструмент ETL, просто инструмент планирования для запуска и управления вашими операторами SQL. Я не знаю, что такое искры Apache. Для меня единственными минусами являются: 1. У вас нет графического интерфейса, чтобы видеть все ваши приятные сопоставления; 2. Выполнение внешних функций (zipping, FTPing, call webservices) часто бывает трудно сделать из базы данных. –

ответ

0

Могу ли я узнать причину замены Informatica на Spark. Издание Informatica BDM 10.1 поставляется с механизмом запуска Spark, который преобразует отображения Informatica в эквивалент Spark (код Scala) и выполняет это на кластере. Кроме того, на мой взгляд, Spark более подходит для данных, которые не являются промежуточными, где, как и в случае с ETL, данные меняются от преобразования к трансформации !!!

+0

a) Informatica стоит дорого. b) С огромным объемом данных (большие данные) перемещение данных из хранилища на сервер обработки (Informatica) является дорогостоящим (относительно времени обработки) 3) Informatica может использовать Spark-движок для решения вышеуказанной проблемы обработки данных там, где они находятся , Вы должны платить информационную информацию только для пользовательского интерфейса и быстрой среды разработки (рассмотрите Apache ni-fi). 4) Spark может не только использовать ETL для вас, это может быть полезно, если у вас есть варианты использования для машинного обучения, потоковой передачи в реальном времени и т. Д. Мне очень хотелось бы услышать, каковы недостатки использования Spark в качестве замены Informatica. – Dipankar