Наши параметры AutoScaling в app.yaml заключаются в следующем:Почему мы испытываем огромную задержку в одном автомасштабированном экземпляре Google App Engine, когда доступно несколько других?
automatic_scaling: min_idle_instances: 3 max_idle_instances: automatic max_pending_latency: 30ms max_concurrent_requests: 20
В результате 3 экземпляра резидентов и обычно 2-6 динамические экземпляры (в зависимости от трафика), но распределение нагрузки между экземплярами кажется неэффективным , На скриншоте ниже мы видим 1 экземпляр с подавляющим большинством запросов и массивную задержку в 21 секунду (в последнюю минуту).
Для меня это означает, что в нашей установке должно быть что-то неправильно, чтобы объяснить эти высокие задержки.
У кого-нибудь были проблемы с GCP или App Engine?
Вы не должны ожидать балансировки нагрузки на трафик между экземплярами, см. Http://stackoverflow.com/questions/37188781/in-google-app-engine-only-one-instance-handling-most-of-requests –