2

Давайте рассмотрим, что у меня есть нейронная сеть с одним выходным нейроном. Чтобы описать сценарий: сеть получает изображение как входной сигнал и должна найти один объект в этом изображении. Для упрощения сценария он должен просто выводить x-координату объекта.Имея нейронную сеть, выведите гауссовское распределение, а не одно значение?

Однако, поскольку объект может находиться в разных местах, выход сети, безусловно, будет иметь некоторый шум. Кроме того, изображение может быть немного размытым и прочим.

Поэтому я подумал, что было бы лучше, если бы сеть выводила гауссовское распределение местоположения объекта.

К сожалению, я изо всех сил пытаюсь моделировать эту идею. Как бы я конструировал выход? Сплюснутый 100-мерный вектор, если изображение имеет ширину 100 пикселей? Чтобы сеть могла входить в гауссовское распределение в этом векторе, и мне просто нужно найти пики для получения местоположения аппроксимированного объекта?

Кроме того, я не могу определить функцию стоимости и сигнал учителя. Будет ли сигнал учителя идеальным гауссовым распределением по точной х-координации объекта? Как моделировать функцию стоимости, то? В настоящее время у меня есть кросс-энтропия softmax или просто квадрат ошибки: выход сети < -> реальная координата x.

Может быть, лучший способ справиться с этим сценарием? Как лучшее распределение или любой другой способ, чтобы сеть не выводила ни одного значения без какой-либо информации о шуме и так далее?

+0

Я голосую, чтобы закрыть этот вопрос как не по теме, потому что вы, кажется, спрашиваете, чтобы предложить и сформулировать ответ на тему открытого исследования. Это не подходит для StackOverflow. – pjs

ответ

1

Похоже, что вам действительно нужно convolutional network.

Вы можете обучить сеть распознаванию целевого объекта, когда он расположен в центре восприимчивого поля сети. Затем вы можете создать движущееся окно, на каждом шаге подавая часть большего изображения под этим окном в сеть. Если вы отслеживаете выходы обучаемой сети для каждой (x, y) позиции окна, некоторые местоположения окна будут давать лучшие совпадения, чем другие. После того, как вы охватите все изображение, вы можете выбрать позицию с максимальным сетевым выходом в качестве позиции, где наиболее вероятно расположен целевой объект.

Чтобы справиться с изменениями масштаба и вращения, рассмотрите возможность создания image pyramid или наборов изображений в разных масштабах и поворотах, которые являются версиями исходного изображения. Затем проведите по этим изображениям, чтобы найти целевое изображение.