При выполнении распределенной асинхронной тренировки необходимо, чтобы все работники ожидали в какой-то момент синхронизации параметров модели, например, синхронизации после завершения эпохи и вычисления auc в наборе проверки.Есть ли способ сделать так, как MPI_BARRIER в тензорном потоке?
MPI_BARRIER достаточно хорош при использовании MPI, есть ли что-то подобное в тензорном потоке?
спасибо очень много! !! –
спасибо большое !!! Я пробую этот подход, и он хорошо работает, когда все работники находятся на одной машине. Но он зависает, когда я запускаю 2 узла, каждый с рабочим и ps. Обычно для вызова одного барьера() требуется около 20 минут или более. У вас есть идея исправить это? –
Не тестировали это на нескольких машинах. Действительно ли это происходит через 20 минут? Как долго длится один вызов sess.run для увеличения на ps? (Ваша сеть медленная?) Какую часть она поддерживает? –