У нас есть Spark Streaming application
, работающий на кластере YARN.Spark Streaming - пакетный интервал против времени обработки
Он получает сообщения от Kafka topics
.
Фактически наше время обработки больше, чем интервал между партиями.
Batch Interval : 1 Minute
Processing Time : 5 Minutes
Я хотел бы знать, что произойдет, если некоторые данные, полученные в период между временем обработки, будут данные доступны в памяти до обработки более. Или это будет отменено при последующих сборах данных?
Мы используем Direct Streaming approach
для получения данных из тем Kafka.
Должен ли я пойти с Window based
операций? например, если у меня есть Window length as 5 Minutes and Sliding interval as 2 Minutes and Batch Interval as 1 Minute
, будет ли это работать? Потому что мы не можем потерять какие-либо данные в нашем приложении.
Спасибо за ваш своевременный и отличный ответ .. – Shankar