0

Я пытаюсь использовать предварительно обработанный VGG16 в качестве локализатора объекта в данных Tensorflow on ImageNet. В своей статье группа упоминает, что они в основном просто отделяют слой softmax и либо бросаются на fc-слой 4D/4000D для ограничения регрессии прямоугольника. Я не пытаюсь сделать что-нибудь интересное здесь (раздвижные окна, RCNN), просто получаю некоторые посредственные результаты.Локализация объекта CNN Предварительная обработка?

Я как бы новичок в этом, и я просто путаюсь о предварительной обработке, сделанной здесь для локализации. В статье говорится, что они масштабируют изображение до 256 как самую короткую сторону, затем берут центральную культуру 224x224 и тренируют на этом. Я просмотрел все и не могу найти простое объяснение того, как обрабатывать данные локализации.

Вопросы: Как люди обычно обрабатывать ограничивающую коробку здесь ...

  • использовать что-то вроде команды tf.sample_distorted_bounding_box ли, а затем масштабировать изображение, основанное на том, что?
  • Вы просто перемасштабируете/обрезаете изображение, а затем интерполируете рамку с трансформированными шкалами? Не приведет ли это к отрицательным координатам ящика в некоторых случаях?
  • Как обрабатываются несколько объектов на каждое изображение?

    • Вы просто выбираете единственную ограничительную рамку с самого начала, обрезаете ее, затем тренируетесь по этой культуре?

    • Или вы кормите его всем (с обрезанным по центру) изображением, а затем попытаетесь как-то предсказать 1 или более ящиков?

  • Вызывает ли какое-либо из этого обобщение проблемы обнаружения или сегментации (например, MS-CoCo), или это совсем другое?

Все помогает ... Благодаря

ответ

0

Локализация обычно выполняется как пересечение скользящих окон, где сеть определяет наличие объекта, который вы хотите.

Обобщение того, что для нескольких объектов работает одинаково.

Сегментация сложнее. Вы можете тренировать свою модель на пиксельной маске с заполненным объектом, и вы пытаетесь вывести пиксельную маску того же размера

+0

Когда это происходит, происходит это скольжение? Является ли скольжение, просто беря разные культуры входного изображения? Или это как-то встроено в сетевую архитектуру? .. – KTF

+0

После тренировки. Для каждого окна вы заставляете свою сеть угадывать присутствие, то с пересечением всех положительных окон у вас будет ваше ограниченное – bold

+0

Положительное окно, означающее, что ваша сеть только предсказывает двоичный да/нет? – KTF