Я пытаюсь использовать предварительно обработанный VGG16 в качестве локализатора объекта в данных Tensorflow on ImageNet. В своей статье группа упоминает, что они в основном просто отделяют слой softmax и либо бросаются на fc-слой 4D/4000D для ограничения регрессии прямоугольника. Я не пытаюсь сделать что-нибудь интересное здесь (раздвижные окна, RCNN), просто получаю некоторые посредственные результаты.Локализация объекта CNN Предварительная обработка?
Я как бы новичок в этом, и я просто путаюсь о предварительной обработке, сделанной здесь для локализации. В статье говорится, что они масштабируют изображение до 256 как самую короткую сторону, затем берут центральную культуру 224x224 и тренируют на этом. Я просмотрел все и не могу найти простое объяснение того, как обрабатывать данные локализации.
Вопросы: Как люди обычно обрабатывать ограничивающую коробку здесь ...
- использовать что-то вроде команды tf.sample_distorted_bounding_box ли, а затем масштабировать изображение, основанное на том, что?
- Вы просто перемасштабируете/обрезаете изображение, а затем интерполируете рамку с трансформированными шкалами? Не приведет ли это к отрицательным координатам ящика в некоторых случаях?
Как обрабатываются несколько объектов на каждое изображение?
Вы просто выбираете единственную ограничительную рамку с самого начала, обрезаете ее, затем тренируетесь по этой культуре?
Или вы кормите его всем (с обрезанным по центру) изображением, а затем попытаетесь как-то предсказать 1 или более ящиков?
- Вызывает ли какое-либо из этого обобщение проблемы обнаружения или сегментации (например, MS-CoCo), или это совсем другое?
Все помогает ... Благодаря
Когда это происходит, происходит это скольжение? Является ли скольжение, просто беря разные культуры входного изображения? Или это как-то встроено в сетевую архитектуру? .. – KTF
После тренировки. Для каждого окна вы заставляете свою сеть угадывать присутствие, то с пересечением всех положительных окон у вас будет ваше ограниченное – bold
Положительное окно, означающее, что ваша сеть только предсказывает двоичный да/нет? – KTF