2017-02-11 7 views
0

Я использую Dockerflow для выполнения параллельных задач с помощью API-интерфейсов Google для Google Cloud Platform. Я начал одношаговую задачу, запускающую 1389 виртуальных машин параллельно, и обнаружил, что 233 виртуальных машин, по-видимому, ничего не делали и вешали бесконечно.Почему экземпляры Google Pipeline VM висят бесконечно?

Я проверил выборочную проверку вывода последовательной консоли и неоднократно видел, что виртуальные машины запускались в «Ошибка конфигурации контроллера».

Когда я попытался войти в виртуальные машины, я получил сообщение об ошибке «Connection Failed. Мы не можем подключиться к VM на порту 22».

Мне интересно, почему мои виртуальные экземпляры висят, и если есть что-то, что я могу сделать, чтобы избежать столкновения с этими проблемами.

Я включил фрагмент последовательного вывода на консоль ниже

startupscript: +++ readlink -f /usr/share/google-genomics/startup.sh 
startupscript: ++ dirname /usr/share/google-genomics/startup.sh 
startupscript: + cd /usr/share/google-genomics 
startupscript: + ./controller --operation_id <id> --validation_token <token> --base_path https://genomics.googleapis.com 
create controller[2905]: Getting controller config 
create controller[2905]: Getting controller config failed, will retry: Get <link>: Get <service_account_token_link>: net/http: timeout awaiting response headers 
create controller[2905]: Getting controller config failed, will retry: Get <link>: dial tcp 74.125.26.95:443: i/o timeout 
collectd[2342]: write_gcm: Asking metadata server for auth token 
collectd[2342]: write_gcm: curl_easy_perform() failed: Couldn't connect to server 
collectd[2342]: write_gcm: Error -1 from wg_curl_get_or_post 
collectd[2342]: write_gcm: wg_transmit_unique_segment failed. 
collectd[2342]: write_gcm: wg_transmit_unique_segments failed. Flushing. 

ответ

1

В нашей стране существовала временная сетевая проблема-east1-b. Все 3 над ВМ были в нас-east1-b. Эти незначительные инциденты не появляются в https://status.cloud.google.com/

Последовательный вывод консоли для успешного запуска выглядит следующим образом:

21 февраля 19:05:06 ПГА-5629907348021283130 startupscript: + ./controller --operation_id --validation_token - -base_path https://autopush-genomics.sandbox.googleapis.com A Feb 21 19:05:06 ggp-5629907348021283130 создать контроллер [2689]: получить конфигурацию контроллера A Feb 21 19:05:36 ggp-5629907348021283130 создать контроллер [2689]: Ошибка конфигурации контроллера, повторите попытку: Получить https://genomics.googleapis.com/v1alpha2/pipelines:getControllerConfig?alt=json&operationId= & validationToken =: dial tcp 173.194.212.81:443: i/o timeout A Feb 21 19:05:43 ggp-5629907348021283130 контроллер [2689]: Переключение в состояние: pulling-image A Feb 21 19:05:43 ggp-5629907348021283130 контроллер [2689]: вызов SetOperationStatus (pulling-image) A Feb 21 19:05:44 ggp-5629907348021283130 контроллер [2689]: SetOperationStatus (pulling-image) удался

Ошибка «Ошибка конфигурации контроллера, повторите попытку». Ему удалось повторить попытку. «SetOperationStatus (pull-image) преуспел» означает, что сеть работает.

Теоретически вы можете отправить любое количество заданий в API Pipelines, и API позаботится о проведении очередей.

Если эти временные сетевые икоты становятся общими, мы можем рассмотреть возможность изменения API трубопроводов, чтобы как-то обнаружить и повторить попытку.

0

там, возможно, была временная проблема сети. Можете ли вы дать мне несколько неудачных идентификаторов операций (или неудачных имен виртуальных машин)?

С тех пор вы пробовали снова; можете ли вы воспроизвести проблему?

+1

Hi Melissa, Спасибо за ваш ответ! Да, вот несколько неудачных имен виртуальных машин: ggp-10216049259697508221, ggp-10257299594135474280, ggp-1028157029596421767. Я попробовал еще раз, просто выполнив партию из 233 неудачных заданий, и все они успешно завершились. Думая об этом больше, похоже, что виртуальные машины столкнулись с ошибками получения данных с сервера Google Genomics API (https://genomics.googleapis.com/v1alpha2/). Я думаю, что, возможно, просто перегрузил его, но отправил 1000+ рабочих мест сразу. –