1

В SegNet архитектура, предложенная авторами, показана следующим образом. enter image description here.Относительно двух сверточных слоев, расположенных друг над другом в архитектуре SegNet

Что меня смущает, так это то, что в каждом строительном блоке следуют два сверточных слоя, как показано на рисунке как 1 и 2. Каковы основные мотивы размещения слоев свертки таким образом, а не их агрегации в единый сверточный слой?

ответ

1

Если вы посмотрите на легенду в нижней части рисунка, который вы подключили, вы увидите, что в этой иллюстрации SegNet синий слой означает «Conv + BatchNormalization + ReLU»: То есть есть нелинейная активация , "ReLU" между двумя линейными свертками.

Независимо от этого примера, можно было бы разместить две линейные единицы один поверх другого без любой нелинейности, чтобы явно контролировать/регулировать ранг линейной операции. См., Например, how to reduce dimensionality of a fully connected layer using SVD trick.

+1

@AdiShavit благодарит за изменение :) – Shai

+0

благодарит за ваш ответ. Я все еще смущаюсь по этому вопросу. Скажем, уровень conv (отмеченный как 1) генерирует 512 карт функций, а conv layer (помечены как 2) генерирует 512 карт функций. Почему бы не использовать один слой для создания карт с характеристиками 1024? – user288609

+0

@ user288609 он не эквивалентен: (а) у вас есть нелинейность между слоями. (б) если ядро ​​conv 3x3, чем применение 3x3 в два раза, это как применение 5x5 один раз (в терминах восприимчивого поля). Разрушение линейных слоев таким образом позволяет моделировать более сложные структуры, чем линейные. – Shai

0

SegNet использует 13 сверточных слоев от VGG. (2 + 2 + 3 + 3 + 3)

Для получения дополнительной информации отметьте this visualization и the paper.

Из статьи:

Легко видеть, что стопка два 3 × 3 усл. слои (без пространственного объединения между ними) имеют эффективное восприимчивое поле в 5 × 5, такие слои имеют эффективное восприимчивое поле 7 × 7. Итак, что мы получили, используя, например, стек из трех 3 × 3 конв. слоев вместо одного слоя 7 × 7? Во-первых, мы используем три нелинейных слоя ректификации вместо одного, что делает функцию принятия решений более дискриминационной. Во-вторых, мы уменьшаем количество параметров: считая, что как вход, так и выход трехслойного стека свертки 3 × 3 имеют C-каналы, стек параметризуется enter image description here весами; в то же время, один 7 × 7 конв. слой потребует параметров enter image description here, то есть на 81% больше. Это можно рассматривать как наложение регуляризации на 7 × 7 conv. фильтры, заставляя их иметь разложение через фильтры 3 × 3 (с нелинейностью, введенной между ними).