0

Я хочу, чтобы понять, какую роль играет в "spark.streaming.blockInterval" Спарк Streaming DirectAPI, согласно моему пониманию "spark.streaming.blockInterval" используется для расчета разделов т.е. #partitions = (receivers x* batchInterval) /blockInterval, но в DirectAPI искры потокового разделов равно no. кафкинских перегородок.Что такое использование «spark.streaming.blockInterval» в Спарк Streaming DirectAPI

Как "spark.streaming.blockInterval" используется в DirectAPI?

ответ

0

spark.streaming.blockInterval:

интервал, при котором данные, полученные с помощью искры Потоковое приемников разбит на блоки данных перед хранением их в Спарк.

И KafkaUtils.createDirectStream() не используют приемник.

С directStream Спарк Streaming будет создавать столько разделов РДД как есть Кафка перегородки потреблять

+0

Это означает, что блок интервал конфигурации не использовать в DirectAPI правильно? – nilesh1212

+0

@ nilesh1212 да, http: //spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html#approach-2-direct-approach-no-receivers –