Одна вещь смутила меня, когда я читал бумагу Yolo_9000.
В структуре Yolov2 размер конечного слоя 13x13, кажется, каждая ячейка содержит примерно 32x32 информацию об изображении с исходного изображения. Для меня это похоже на использование только локальной информации для определения объекта, я не уверен, достаточно ли этого или достаточно.Почему Yolo_9000 использует только местные изображения?
В версии v1 существует полный подключенный уровень для объединения локальной и глобальной информации, я считаю, что это более разумно.
Или что-то я понимаю неправильно, этот вопрос меня беспокоит. Спасибо ..
Спасибо за ваш ответ. Да, окно проходит через весь образ, но каждое окно ведет только на один пиксель (с новой глубиной) на следующем уровне. Например, вход 32x32x3, я использую 3x3 с уровнем глубины 16 сверток, результат 32x32x16. каждый фильтр 3x3 собирает информацию только вокруг. Глубина 16 - это только размерность объекта. Другое дело, что я могу использовать слой свертки как детектор 16xSobel, нет глобальной информации, использующей обнаружение крошечного края. –
Да, sobel - это только локальная информация, но с последующим фильтром sobel увеличивается досягаемость, и если вы добавите достаточно фильтров sobel, у вас будет своя глобальная информация в каждом пикселе. Например. если вы используете фильтр sobel 3x3, который у вас есть в этом конкретном пикселе, он отображает информацию о соседнем пикселе. Затем, если вы используете другой фильтр sobel 3x3, у вас будет информация, встроенная в соседний пиксель, в который уже включен пиксель соседей, который также может быть архивирован большим ядром фильтра. Этот эффект усиливается путем операции объединения. –
Спасибо. Это разумно. Другой вопрос, который, как представляется, требует достаточного количества слоев для получения глобальной информации, фильтры глубины в одном слое не будут добавлять дополнительную информацию о соседних областях, учитывая, что они имеют одинаковый размер и работают с выходом из слоя ранее. –