2016-04-14 4 views
1

Что делает контрольная точка для Apache Spark, и нужны ли какие-либо хиты в ОЗУ или процессоре?Что делает контрольная точка на Apache Spark?

+2

Что вы не понимаете, прочитав документацию? http://spark.apache.org/docs/latest/streaming-programming-guide.html#checkpointing –

+2

Возможный дубликат [В чем разница между контрольной точкой искры и сохранением на диске] (http://stackoverflow.com/ вопросы/35127720/что-это-разностной-между-искрой-контрольно-пропускной пункт и-упорствовать к-а-диск) – zero323

ответ

1

От Apache Streaming Documentation - Надеюсь, что это помогает:

приложение потоковой передачи должен работать в режиме 24/7 и, следовательно, должны быть устойчивыми к сбоям, не связанным с логикой приложения (например, сбой системы JVM аварий и т.д.). Чтобы это было возможно, Spark Streaming необходимо довести достаточную информацию к отказоустойчивой системе хранения, чтобы она могла восстановиться после сбоев. Контролируются два типа данных.

  • Метаданные чекпойнтинг - Сохранение информации, определяющей потокового вычисления для отказоустойчивого хранения как HDFS. Это , используемое для восстановления после сбоя узла, на котором запущен драйвер потокового приложения (подробнее обсуждается позже). Метаданные включают:
    • Конфигурация - Конфигурация, которая была использована для создания потокового приложения .
    • Операции DStream - набор операций DStream , которые определяют потоковое приложение.
    • Неполные партии
    • Партии, задания которых поставлены в очередь, но еще не завершены.
  • Контрольно-пропускной пункт данных - сохранение генерируемых RDD в надежном хранилище. Это необходимо в некоторых преобразованиях состояния, которые объединяют данные по нескольким партиям. При таких преобразованиях генерируемые RDD зависят от RDD предыдущих партий, что приводит к тому, что длина цепочки зависимостей продолжает возрастать со временем. Чтобы избежать такого неограниченного увеличения времени восстановления (пропорционального цепочке зависимостей), промежуточные RDD преобразований состояний периодически проверяются на надежное хранение (например, HDFS), чтобы обрезать цепи зависимостей.

Подводя итог, контрольная точка метаданных в первую очередь необходима для восстановления после сбоев драйверов, тогда как контрольная точка данных или RDD необходима даже для базового функционирования, если используются преобразования состояния.

 Смежные вопросы

  • Нет связанных вопросов^_^