Почему Yolo_9000 использует только местные изображения?

Одна вещь смутила меня, когда я читал бумагу Yolo_9000.
В структуре Yolov2 размер конечного слоя 13x13, кажется, каждая ячейка содержит примерно 32x32 информацию об изображении с исходного изображения. Для меня это похоже на использование только локальной информации для определения объекта, я не уверен, достаточно ли этого или достаточно.Почему Yolo_9000 использует только местные изображения?

В версии v1 существует полный подключенный уровень для объединения локальной и глобальной информации, я считаю, что это более разумно.

Или что-то я понимаю неправильно, этот вопрос меня беспокоит. Спасибо ..

источник

2017-01-04 Shawn Yagami

Но информация уже используется свертками. Каждый фильтр 3x3 использует информацию об окружении последнего фильтра на каждом пикселе. Эти пиксели, в свою очередь, уже свертки и используют окружающую информацию о своих пикселях и т. Д. И т. Д. В сочетании с уменьшением размера изображения путем максимального объединения все изображение покрывается следующим образом.

источник

2017-01-05 10:13:51

Спасибо за ваш ответ. Да, окно проходит через весь образ, но каждое окно ведет только на один пиксель (с новой глубиной) на следующем уровне. Например, вход 32x32x3, я использую 3x3 с уровнем глубины 16 сверток, результат 32x32x16. каждый фильтр 3x3 собирает информацию только вокруг. Глубина 16 - это только размерность объекта. Другое дело, что я могу использовать слой свертки как детектор 16xSobel, нет глобальной информации, использующей обнаружение крошечного края. –

Да, sobel - это только локальная информация, но с последующим фильтром sobel увеличивается досягаемость, и если вы добавите достаточно фильтров sobel, у вас будет своя глобальная информация в каждом пикселе. Например. если вы используете фильтр sobel 3x3, который у вас есть в этом конкретном пикселе, он отображает информацию о соседнем пикселе. Затем, если вы используете другой фильтр sobel 3x3, у вас будет информация, встроенная в соседний пиксель, в который уже включен пиксель соседей, который также может быть архивирован большим ядром фильтра. Этот эффект усиливается путем операции объединения. –

Спасибо. Это разумно. Другой вопрос, который, как представляется, требует достаточного количества слоев для получения глобальной информации, фильтры глубины в одном слое не будут добавлять дополнительную информацию о соседних областях, учитывая, что они имеют одинаковый размер и работают с выходом из слоя ранее. –

Почему Yolo_9000 использует только местные изображения?

ответ

Смежные вопросы