2016-01-20 3 views
1

Я использую Dataproc для запуска команд Spark над кластером с использованием искровой оболочки. Я часто получаю сообщения об ошибках/предупреждениях, указывающие, что я теряю связь с моими исполнителями. Сообщения выглядят следующим образом:Google Dataproc - часто отключается от исполнителей

[Stage 6:>               (0 + 2)/2]16/01/20 10:10:24 ERROR  org.apache.spark.scheduler.cluster.YarnScheduler: Lost executor 5 on spark-cluster-femibyte-w-0.c.gcebook-1039.internal: remote Rpc client disassociated 
16/01/20 10:10:24 WARN akka.remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://[email protected] femibyte-w-0.c.gcebook-1039.internal:60599] has failed, address is now gated for [5000] ms. Reason: [Disassociated] 
16/01/20 10:10:24 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 0.2 in stage 6.0 (TID 17, spark-cluster-femibyte-w-0.c.gcebook-1039.internal): ExecutorLostFailure (executor 5 lost) 
16/01/20 10:10:24 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 1.2 in stage 6.0 (TID 16, spark-cluster-femibyte-w-0.c.gcebook-1039.internal): ExecutorLostFailure (executor 5 lost) 

...

Вот еще один пример:

20 10:51:43 ERROR org.apache.spark.scheduler.cluster.YarnScheduler: Lost executor 2 on spark-cluster-femibyte-w-1.c.gcebook-1039.internal: remote Rpc client disassociated 
16/01/20 10:51:43 WARN akka.remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://[email protected]:58745] has failed, address is now gated for [5000] ms. Reason: [Disassociated] 
16/01/20 10:51:43 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 1.0 in stage 4.0 (TID 5, spark-cluster-femibyte-w-1.c.gcebook-1039.internal): ExecutorLostFailure (executor 2 lost) 
16/01/20 10:51:43 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 0.0 in stage 4.0 (TID 4, spark-cluster-femibyte-w-1.c.gcebook-1039.internal): ExecutorLostFailure (executor 2 lost) 
16/01/20 10:51:43 WARN org.apache.spark.ExecutorAllocationManager: Attempted to mark unknown executor 2 idle 

Это нормально? Есть ли что-нибудь, что я могу сделать, чтобы это предотвратить?

+0

Вам необходимо проверить сетевое подключение вашего основного узла с узлами, запускающими исполнителей. Кроме того, ваш рабочий выключен/остановлен, когда вы получаете это сообщение, или он все еще работает, и ошибка все еще появляется? – Sumit

+0

Как это проверить? Я нахожусь в облаке Google. Разве это не Dataproc для меня? – femibyte

+0

Это происходит во время долговременной задачи. – femibyte

ответ

3

Если сама работа не терпит неудачу, поскольку вы не видите других распространенных ошибок, связанных с фактическими сбоями задачи (по крайней мере, насколько я могу судить по тому, что было опубликовано в вопросе), скорее всего, просто видя безвредный, но known to be spammy issue in core Spark; ключ заключается в том, что динамическое распределение Spark отказывается от недоиспользуемых исполнителей во время задания и перенаправляет их по мере необходимости. Они изначально не смогли подавить часть, потерянную исполнителем, но мы протестировали ее, чтобы убедиться, что она не оказывает вредного воздействия на фактическую работу.

Вот a googlegroups thread, освещающий некоторые из поведенческих деталей Spark on YARN.

Чтобы проверить, является ли это действительно динамическое распределение приводит к появлению сообщений, попробуйте запустить:

spark-shell --conf spark.dynamicAllocation.enabled=false \ 
    --conf spark.executor.instances=99999 

Или, если вы подаете работу через gcloud beta dataproc jobs, затем:

gcloud beta dataproc jobs submit spark \ 
    --properties spark.dynamicAllocation.enabled=false,spark.executor.instances=99999 

Если вы действительно видите сетевые икоты или другие ошибки Dataproc, отделяющие мастера/работника, если он не является OOM приложения или что-то еще, вы можете отправить команду Dataproc прямо на [email protected]; бета не будет оправданием латентного нарушения поведения (хотя мы, конечно, надеемся вырезать сложные ошибки в крайнем случае, которые, возможно, еще не были обнаружены в течение бета-периода).

+0

Спасибо за предложения. Я попробую их. – femibyte

 Смежные вопросы

  • Нет связанных вопросов^_^