Я прошел через this вопрос stackoverflow, в соответствии с ответом он создает DStream
только с одним RDD
за пакетный интервал.Удаляет ли RDD DStream целые данные, созданные для пакетного интервала одним выстрелом?
Например:
Моя партия интервал 1 минута и Спарк Streaming работа отнимает много данных от Кафки Topic.
Мой вопрос в том, что RDD, доступный в DStream, тянет/содержит все данные за последнюю минуту? Существуют ли какие-либо критерии или параметры, необходимые для установки всех данных, созданных за последнюю минуту?
Если у меня есть тема Kafka с 3 разделами, и все 3 раздела содержат данные за последнюю минуту, будет ли DStream вытаскивать/содержать все данные, созданные за последнюю минуту во всех разделах раздела Kafka?
Update:
В этом случае DStream содержит более одного RDD?