В настоящее время я использую супервизор и построил только один график для обучения передаче, используя предварительно подготовленные веса из TF-slim. Мне интересно, есть ли способ восстановить модели контрольных точек до нескольких моделей вывода с самого начала? Моя главная проблема заключается в том, что во-первых, области имен, которые определены как в reference code в репозитории TF, могут привести к невозможности восстановления предварительно подготовленных переменных из-за несоответствия имени. Кроме того, учитывая, что я должен использовать супервизор с init_fn
, который использует только одну заставку, которая восстанавливает переменные, как я могу иметь несколько вкладчиков для восстановления одних и тех же переменных на нескольких графических процессорах (если мне вообще нужно иметь несколько вкладчиков) ,TensorFlow: Можно ли восстановить модели контрольных точек для обучения с несколькими gpu?
Одна из моих идей заключается в том, что, возможно, я мог бы просто восстановить переменные на один график, а другие графические процессоры использовать один и тот же график для обучения. Однако будет ли тренировка для следующего GPU проходить только после завершения первого GPU? Но таким образом, я не смогу восстановить весы в соответствии с именами переменных исходной модели контрольной точки, если я не изменю имена весов контрольной точки.
Вы всегда можете вручную выбрать значения сохраненной переменной и присвоить ее графику во время выполнения. – fabrizioM
Могу ли я узнать, что это за процесс? Кроме того, не будет ли это медленнее, если я буду восстанавливать переменные во время выполнения, а не сначала инициализировать его до запуска модели? – kwotsin