2

Я много читал о архитектурах лямбда и kappa, где нам нужно использовать Apache Spark или Apache Storm. Я только что открыл новый инструмент под названием DataTorrent, который может выполнять пакетный и в реальном времени процесс. Мне было интересно, может ли DataTorrent в то же время выполнять пакетный и скоростной уровень архитектуры лямбда (или kappa)?Как использовать datatorrent в архитектуре kappa?

Приветствия,

ответ

2

Apache апекс или Datatorrent RTS позволяет вашей команде для разработки, тестирования, отладки и работать на единой структуры обработки.

Хотя в документации Apap apex нет явного упоминания о архитектуре kappa, IMO она может использоваться для обслуживания архитектуры kappa.

Apache apex обеспечит встроенную поддержку отказоустойчивости, контрольной точки, восстановления. Таким образом, вы можете полагаться на одну DAG потока данных в Apex для получения надежных результатов с низкими задержками. Нет необходимости иметь отдельный слой пакетного и скоростного уровней, когда вы определяете свое приложение с помощью DAG на Apex.

Но обратите внимание, что Apache Apex является примером механизма вычисления потока. Для полной архитектуры Kappa у вас будет комбинация Журнальные магазины + движок вычисления потока + Магазин уровня обслуживания.

1

DataTorrent может использоваться для удовлетворения требований архитектуры Kappa. Вы можете обрабатывать данные пакета и данные в режиме реального времени одновременно.

Datatorrent - модель непрерывного потока, в которой пакетные данные текут как поток через DAG в отличие от Spark, где потоковые потоки данных в пакетах.

Возможно, вам понадобится подавать ваши данные из разных источников ввода с использованием разных портов оператора, а вычисление inmemory на данных позаботится о вызовах платформы в портах.

Это похоже на приемник (оператор в DT), питаемый двумя трубами (входными портами).