Я создаю приложение Apache Spark, которое действует на несколько потоков.Spark Streaming и высокая доступность
Я прочитал Tuning раздел Производительность документации: http://spark.apache.org/docs/latest/streaming-programming-guide.html#performance-tuning
То, что я не получаю:
1) Расположены на потоковые приемники на нескольких узлах рабочих или машины водитель?
2) Что произойдет, если один из узлов, которые получают данные не удается (выключение/перезагрузка)
Хорошо, так что если рабочий с приемником будет убит - драйвер повторит создание приемника, и новый работник снова начнет получать данные - все это автоматически. Это звучит разумно, но где-то это документировано? –
@PiotrR Я думаю, вы [ищете это] (http://spark.apache.org/docs/latest/streaming-programming-guide.html#fault-tolerance-semantics) –