Я читал, что CNN (с обоими свертками и максимумом пула) имеют сдвиг-инвариантность, но большинство методов обнаружения объектов использовали детектор скользящего окна с не максимальным подавлением. Нужно ли использовать скользящие окна с CNN при обнаружении объектов?Зачем использовать скользящие окна со сверточными нейронными сетями при обнаружении объектов?
В принципе, вместо того, чтобы тренировать сеть на небольших 50х50 патчах изображений, содержащих нужный объект, почему бы не потренировать целые изображения, где объект где-то присутствует? Все, что я могу придумать, - это практические/служебные причины (делая переходы на более мелкие патчи вместо целых изображений), но есть ли также теоретическое объяснение, которое я не замечаю?