Относительно двух сверточных слоев, расположенных друг над другом в архитектуре SegNet

В SegNet архитектура, предложенная авторами, показана следующим образом. .Относительно двух сверточных слоев, расположенных друг над другом в архитектуре SegNet

Что меня смущает, так это то, что в каждом строительном блоке следуют два сверточных слоя, как показано на рисунке как 1 и 2. Каковы основные мотивы размещения слоев свертки таким образом, а не их агрегации в единый сверточный слой?

источник

2017-01-31 user288609

Если вы посмотрите на легенду в нижней части рисунка, который вы подключили, вы увидите, что в этой иллюстрации SegNet синий слой означает «Conv + BatchNormalization + ReLU»: То есть есть нелинейная активация , "ReLU" между двумя линейными свертками.

Независимо от этого примера, можно было бы разместить две линейные единицы один поверх другого без любой нелинейности, чтобы явно контролировать/регулировать ранг линейной операции. См., Например, how to reduce dimensionality of a fully connected layer using SVD trick.

источник

2017-02-01 06:45:09 Shai

@AdiShavit благодарит за изменение :) – Shai

благодарит за ваш ответ. Я все еще смущаюсь по этому вопросу. Скажем, уровень conv (отмеченный как 1) генерирует 512 карт функций, а conv layer (помечены как 2) генерирует 512 карт функций. Почему бы не использовать один слой для создания карт с характеристиками 1024? – user288609

@ user288609 он не эквивалентен: (а) у вас есть нелинейность между слоями. (б) если ядро conv 3x3, чем применение 3x3 в два раза, это как применение 5x5 один раз (в терминах восприимчивого поля). Разрушение линейных слоев таким образом позволяет моделировать более сложные структуры, чем линейные. – Shai

SegNet использует 13 сверточных слоев от VGG. (2 + 2 + 3 + 3 + 3)

Для получения дополнительной информации отметьте this visualization и the paper.

Из статьи:

Легко видеть, что стопка два 3 × 3 усл. слои (без пространственного объединения между ними) имеют эффективное восприимчивое поле в 5 × 5, такие слои имеют эффективное восприимчивое поле 7 × 7. Итак, что мы получили, используя, например, стек из трех 3 × 3 конв. слоев вместо одного слоя 7 × 7? Во-первых, мы используем три нелинейных слоя ректификации вместо одного, что делает функцию принятия решений более дискриминационной. Во-вторых, мы уменьшаем количество параметров: считая, что как вход, так и выход трехслойного стека свертки 3 × 3 имеют C-каналы, стек параметризуется весами; в то же время, один 7 × 7 конв. слой потребует параметров , то есть на 81% больше. Это можно рассматривать как наложение регуляризации на 7 × 7 conv. фильтры, заставляя их иметь разложение через фильтры 3 × 3 (с нелинейностью, введенной между ними).