2015-10-08 4 views
0

Когда перезапуск службы мезо или марафона по некоторым причинам и лидер мезо и марафона находится не на одной машине, развертывания застряли в марафоне, и в мезоне ничего не происходит, что приводит к ужасные результаты, когда марафон не может перезапустить неудавшиеся службы и ничего не делать с развертываниями, пока лидеры не будут снова совпадать.Марафон теряет контроль над Мезосом, когда лидеры марафона и мезоса не соответствуют

В нашем кластере есть 3 мастера (устанавливается через сайт мезосферы), и эта ситуация случается довольно часто, есть ли способ исправить это?

Marathon v.0.9.0 Mesos v0.22.1

ответ

2

Это звучит как Mesos или Marathon использовать частный IP (локальный/127.0.0.1), таким образом, они не смогли говорить каждому Другие.
Вы должны решить свою проблему, установив общедоступный IP-адрес, используя соответствующий флаг командной строки --ip или LIBPROCESS_IP environment var.

Одним из особенно полезных настроек является LIBPROCESS_IP, который сообщает двоичным файлам ведущего устройства и подчиненного устройства, к которому привязывается IP-адрес; в некоторых установках интерфейс по умолчанию, который разрешает имя хоста, не является внешним IP-адресом машины, поэтому вы можете установить правильный IP-адрес через эту переменную.

/источник http://mesos.apache.org/documentation/latest/deploy-scripts/