Я использую Dockerflow для выполнения параллельных задач с помощью API-интерфейсов Google для Google Cloud Platform. Я начал одношаговую задачу, запускающую 1389 виртуальных машин параллельно, и обнаружил, что 233 виртуальных машин, по-видимому, ничего не делали и вешали бесконечно.Почему экземпляры Google Pipeline VM висят бесконечно?
Я проверил выборочную проверку вывода последовательной консоли и неоднократно видел, что виртуальные машины запускались в «Ошибка конфигурации контроллера».
Когда я попытался войти в виртуальные машины, я получил сообщение об ошибке «Connection Failed. Мы не можем подключиться к VM на порту 22».
Мне интересно, почему мои виртуальные экземпляры висят, и если есть что-то, что я могу сделать, чтобы избежать столкновения с этими проблемами.
Я включил фрагмент последовательного вывода на консоль ниже
startupscript: +++ readlink -f /usr/share/google-genomics/startup.sh
startupscript: ++ dirname /usr/share/google-genomics/startup.sh
startupscript: + cd /usr/share/google-genomics
startupscript: + ./controller --operation_id <id> --validation_token <token> --base_path https://genomics.googleapis.com
create controller[2905]: Getting controller config
create controller[2905]: Getting controller config failed, will retry: Get <link>: Get <service_account_token_link>: net/http: timeout awaiting response headers
create controller[2905]: Getting controller config failed, will retry: Get <link>: dial tcp 74.125.26.95:443: i/o timeout
collectd[2342]: write_gcm: Asking metadata server for auth token
collectd[2342]: write_gcm: curl_easy_perform() failed: Couldn't connect to server
collectd[2342]: write_gcm: Error -1 from wg_curl_get_or_post
collectd[2342]: write_gcm: wg_transmit_unique_segment failed.
collectd[2342]: write_gcm: wg_transmit_unique_segments failed. Flushing.
Hi Melissa, Спасибо за ваш ответ! Да, вот несколько неудачных имен виртуальных машин: ggp-10216049259697508221, ggp-10257299594135474280, ggp-1028157029596421767. Я попробовал еще раз, просто выполнив партию из 233 неудачных заданий, и все они успешно завершились. Думая об этом больше, похоже, что виртуальные машины столкнулись с ошибками получения данных с сервера Google Genomics API (https://genomics.googleapis.com/v1alpha2/). Я думаю, что, возможно, просто перегрузил его, но отправил 1000+ рабочих мест сразу. –