Прежде всего, позвольте мне вкратце разъяснить значение флагов для потомков. --registry
не влияет на выбор лидеров, он определяет стратегию сохранения реестра (где Mesos отслеживает данные, которые должны переноситься при отказе). Значение in_memory
не должно использоваться в производстве, оно может быть даже удалено в будущем.
Лидерские выборы проводятся зоопарком. Согласно вашему журналу, вы используете следующий кластер zookeeper: zk://10.1.69.172:2181,10.1.9.139:2181,10.1.79.211:2181/mesos
.
Теперь, из журнала, кластер не преминул избрать хозяин, он на самом деле сделал это дважды:
I0313 18:35:28.257139 3253 master.cpp:1710] The newly elected leader is [email protected]:5050 with id edd3e4a7-ede8-44fe-b24c-67a8790e2b79
...
I0313 18:35:36.074087 3257 master.cpp:1710] The newly elected leader is [email protected]:5050 with id c4fd7c4d-e3ce-4ac3-9d8a-28c841dca7f5
Я не могу сказать, почему именно лидер был избран в два раза, за что я нужны журналы от 2 других мастеров. Согласно вашему журналу, последний избранный мастер находится на 10.1.9.139:5050
, что, скорее всего, не та, с которой вы предоставили журнал.
Одна подозрительная вещь, которую я вижу в журнале, состоит в том, что идентификаторы мастера различаются для одного и того же IP-порта. У вас есть идея, почему?
I0313 18:35:28.237251 3244 master.cpp:374] Master 24ecdfff-2c97-4de8-8b9c-dcea91115809 (10.1.69.172) started on 10.1.69.172:5050
...
I0313 18:35:28.257139 3253 master.cpp:1710] The newly elected leader is [email protected]:5050 with id edd3e4a7-ede8-44fe-b24c-67a8790e2b79
Да, реплики журнала живут в одном и том же ОС с мастером и общаются друг с другом с использованием того же сокета, который использует мастер (TCP на 5050). – rukletsov