Как решить состояние гонки в выборах лидера?

При тестировании кластера Core Os с тремя узлами после успешного добавления и удаления нескольких дополнительных узлов я столкнулся со следующей проблемой, предположительно из-за состояния гонки во время избирательного процесса для etcd.Как решить состояние гонки в выборах лидера?

Проверка нового лидера дает:

$ curl -L http://127.0.0.1:4001/v2/stats/leader 
{"errorCode":300,"message":"Raft Internal Error","index":629006}

Journalctl для каждой машины в кластере дает:

$ journalctl -r -u etcd 
-- Logs begin at Wed 2014-11-12 15:09:01 UTC, end at Mon 2014-11-24 10:47:34 UTC. -- 
Nov 24 10:47:34 node-1 etcd[56576]: [etcd] Nov 24 10:47:34.307 INFO  | 965d12d38a4a4b2c807bd232fb7b0db7: term #5221 started. 
Nov 24 10:47:34 node-1 etcd[56576]: [etcd] Nov 24 10:47:34.306 INFO  | 965d12d38a4a4b2c807bd232fb7b0db7: state changed from 'candidate' to 'follower'. 
Nov 24 10:47:33 node-1 etcd[56576]: [etcd] Nov 24 10:47:33.098 INFO  | 965d12d38a4a4b2c807bd232fb7b0db7: state changed from 'follower' to 'candidate'. 
Nov 24 10:47:32 node-1 etcd[56576]: [etcd] Nov 24 10:47:32.081 INFO  | 965d12d38a4a4b2c807bd232fb7b0db7: term #5219 started. 
Nov 24 10:47:32 node-1 etcd[56576]: [etcd] Nov 24 10:47:32.081 INFO  | 965d12d38a4a4b2c807bd232fb7b0db7: state changed from 'candidate' to 'follower'. 
Nov 24 10:47:31 node-1 etcd[56576]: [etcd] Nov 24 10:47:31.962 INFO  | 965d12d38a4a4b2c807bd232fb7b0db7: state changed from 'follower' to 'candidate'.

И перечисляя машины с флотом не удается:

$ fleetctl list-machines 
2014/11/24 10:56:19 INFO client.go:278: Failed getting response from http://127.0.0.1:4001/: dial tcp 127.0.0.1:4001: connection refused 
2014/11/24 10:56:19 ERROR client.go:200: Unable to get result for {Get /_coreos.com/fleet/machines}, retrying in 100ms 
2014/11/24 10:56:19 INFO client.go:278: Failed getting response from http://127.0.0.1:4001/: dial tcp 127.0.0.1:4001: connection refused 
2014/11/24 10:56:19 ERROR client.go:200: Unable to get result for {Get /_coreos.com/fleet/machines}, retrying in 200ms 
2014/11/24 10:56:19 INFO client.go:278: Failed getting response from http://127.0.0.1:4001/: dial tcp 127.0.0.1:4001: connection refused

Перечисляя машины в кластере дают:

$ curl -L http://127.0.0.1:7001/v2/admin/machines 
[{"name":"","state":"follower","clientURL":"http://100.72.62.35:4001","peerURL":"http://100.72.62.35:7001"}, 
{"name":"555cca74216644fea48990673b3d539c","state":"follower","clientURL":"http://100.72.62.59:4001","peerURL":"http://100.72.62.59:7001"}, 
{"name":"965d12d38a4a4b2c807bd232fb7b0db7","state":"follower","clientURL":"http://100.72.20.153:4001","peerURL":"http://100.72.20.153:7001"}, 
{"name":"a1b566dedb194c259f7eb2ffde5595b1","state":"follower","clientURL":"http://100.72.62.2:4001","peerURL":"http://100.72.62.2:7001"}, 
{"name":"a45efba827754b5f93c38b751a0ae273","state":"follower","clientURL":"http://100.72.62.31:4001","peerURL":"http://100.72.62.31:7001"}, 
{"name":"d041738235a9483cb814d37ca7fa4b6d","state":"follower","clientURL":"http://100.72.20.18:4001","peerURL":"http://100.72.20.18:7001"}]

но только три машины в настоящее время работают. Я попытался добавить дополнительные машины для достижения кворума безрезультатно. Я бегу следующую версию:

$ etcdctl -v 
etcdctl version 0.4.6

, для которого, как уже упоминалось здесь https://coreos.com/docs/distributed-configuration/etcd-api/#cluster-config, модуль лидера, чтобы заставить лидера был удален. Некрасиво часть является то, что, поскольку нет кворума, я не в состоянии удалить из списка машин, те, которые в настоящее время не работает, используя, например:

$ curl -L -XDELETE http://127.0.0.1:7001/v2/admin/machines/2abbf47a9e644bc69652a986d796d7a6

, который не имеет никакого эффекта. Есть ли способ сохранить кластер?

источник

2014-11-24 emassa

В моем понимании вы можете сохранить кластер, но это не стоит.

Кластер не принимает новые машины, потому что ему нужен кворум для добавления новых машин, и нет кворума существующих машин. То же самое касается удаления машин и удаления ключей.

Если вы можете собрать достаточное количество компьютеров, перечисленных в качестве членов кластера, и успешно их выполнять в качестве членов кластера, у вас будет кворум и сохранение кластера.

Из того, что я вижу, у вас есть шесть машин, перечисленных как члены кластера. Для работы кластера необходимо иметь по крайней мере четыре режима работы.

источник

2015-05-06 22:18:17

Как решить состояние гонки в выборах лидера?

ответ

Смежные вопросы