1

Если Kappa-Architecture делает анализ в потоке напрямую, а не разбивает данные на два потока, где тогда хранится datastored, в системе messagin, такой как Kafka? или он может быть в базе данных для пересчета?В чем разница между kappa-архитектурой и лямбда-архитектурой

И отдельный сегмент пакет быстрее, чем перекомпиляция с помощью механизма обработки потока для пакетной аналитики?

ответ

4

«Очень простой случай, чтобы рассмотреть, когда алгоритмы, применяемые к данным в реальное время и исторические данные идентичны. Тогда явно очень выгодно использовать один и тот же базовый код для обработки исторических и данные реального времени, и, следовательно, реализовать прецедент с использованием архитектуры Kappa ». «Теперь алгоритмы, используемые для обработки исторических данных и данных в реальном времени, не всегда идентичны. В некоторых случаях пакетный алгоритм может быть оптимизирован благодаря тому, что он имеет доступ к полному историческому набору данных, а затем превосходит . Реализация алгоритма реального времени. Выбор между Lambda и Kappa становится выбором между преимуществом пакетного исполнения производительности над простотой базы кода ». «Наконец, существуют еще более сложные сетевые приложения , в которых даже выходы в режиме реального времени и пакетный алгоритм различны. Например, приложение для обучения , где для генерации пакетной модели требуется так много времени и ресурсов, которые наилучшим образом достижимы в реальном времени, - это вычисления и аппроксимированные обновления этой модели. В таких случаях нельзя использовать объединенные партии и уровни в реальном времени, а также использовать архитектуру Lambda ».

Quote

Lambda-Architecture

  • отдельно в пакетном режиме и поток-Слой
  • Выше сложность кода
  • Более высокая производительность с отдельной партии/поток
  • лучше для различных алгоритмов в пакетном режиме и поток
  • дешевле с хранением данных для пакетных вычислений вместо базы данных

Kappa-Architecture

  • только обработка паром слой
  • легче поддерживать, более низкую сложность, единый алгоритмом для пакетного и потока
  • слишком много данных было бы дорого, если пересчитано из базы данных для партии
  • слишком много данных будет медленнее обрабатывать, если пересчитаны из базы данных или из kafka для партии