У нас есть простое искрообразование, потоковое событие от kafka через искру и сохранение этого в redis.Kafka - Spark прямой поток не работает
Первоначально мы используем Receiver-based Approach, который реплицирует партии в HDFS и начинает обработку впоследствии. Этот подход не был таким стабильным, как мы, (мы получили много трафика на наших машинах), поэтому мы переключились на Direct Approach (No Receivers) внутри искрового потока.
Что меня смущает 0: auto.offset.reset параметр, упомянутый в документации. Когда работа потерпела неудачу или световой поток погас, мы увидим, что потоковые задания улавливаются, обрабатывая большое количество событий, а затем стабилизируя сверхурочные.
При втором подходе мы не видим такое поведение больше, и мы не уверены, если искра потокового действительно догоняет или только начиная с auto.offset.resetlatest
.
Является ли latest
разумным по умолчанию при отказоустойчивости и действительно ли потоковое задание действительно правильно выполняется при перезагрузке/нарушении мастер-процесса?
Спасибо, MUKI