0

У меня есть вопрос относительно взаимосвязи между восприимчивым полем CNN и размером объекта, который он должен обнаружить. Допустим, что мои объекты имеют размер 16x16 px. Так должно ли восприимчивое поле быть как минимум 16x16? Или он должен быть больше? Может быть, плохо, если восприимчивое поле велико, скажем, в этом случае, например, 100x100?Размер резидентного поля и размер объекта

Я знаю, что это сложный вопрос, но, возможно, у кого-то есть опыт в отношении того, насколько большое восприимчивое поле должно быть связано с размером объекта.

Спасибо

ответ

0

Воспринимающее поле определяет количество пикселей, которые учитываются при принятии решения. Если вы используете подмножество объекта, чтобы определить, является ли это определенным подмножеством, это похоже на взятие урожая и попросить человека определить, какой объект он является, что трудно сделать.

Как правило, полезно принимать во внимание окружающие данные для принятия обоснованного решения.

Единственная проблема с использованием слишком большой информации об окружающей среде заключается в том, что сеть может принимать решения на основе чего-то, что не связано с самим объектом, потому что оно коррелировано в наборе обучения, но не в реальной жизни. Например. Классификация автомобилей. У вас есть красный фон для каждой Audi и для другого автомобиля. Поэтому, если вы используете все изображение в качестве восприимчивого поля, оно, вероятно, будет классифицировать Audi на основе фона, а не характеристик автомобиля.

Редактировать к вашему осветлению:

я сделал что-то подобное с отпечатками пальцев. Я бы посоветовал вам взглянуть на сегментацию бинарных изображений и использовать область 6x6 или что-то для каждого объекта, чтобы функция потерь была более плавной. Это лучше всего подходит для моего дела.

Это чисто теоретический вопрос, потому что вам понадобится достаточная глубина для архивирования хороших результатов в любом случае, и восприимчивое поле будет больше, чем объект в любом случае. Кроме того, поскольку объект может изменить свой размер, для всех объектов в сцене не будет зафиксирован фиксированный восприимчивый размер. Тем не менее, это был бы интересный эксперимент, если бы он помог ограничить восприимчивый размер пикселя. Я так не думаю.

+0

Хорошо, я понимаю, что в этом случае более крупных объектов классификации имеет смысл, что размер фильтра не должен быть небольшим и не большим. Мое дело больше похоже на проблему оценки плотности. Давайте рассмотрим, что у меня есть ячейки размером 10x10 - 16x16 в изображении. И мой патч для изображения размером 72x72. Если мое эффективное восприимчивое поле (через множество фильтров 3x3 + пулы слоев) на последнем слое будет охватывать весь фрагмент изображения 72x72, а в качестве примера патч для изображения имеет одну ячейку посередине, тогда каждый нейрон в последнем слое будет иметь такое же значение? – Biba

+0

Почему бы вам не обрезать изображения в нужном размере, чтобы вам не нужно беспокоиться о поле приема? Я имею в виду извлечение отдельных ячеек и просто подачу их в сеть. –

+0

С одной ячейкой в ​​середине изображения патч был просто примером. Изображение может выглядеть так: [https://s-media-cache-ak0.pinimg.com/originals/77/4b/09/774b098dd3e9eec4884701d97c93d47b.jpg] Таким образом, может быть также половина ячейки или больше/меньше а также перекрытие и т. д. ... – Biba

0

best относительный размер для вашего восприимчивого поля будет зависеть от общей архитектуры вашей сети. Но, вообще говоря, вы, вероятно, должны иметь поле, отвечающее за фильтр, меньшее, чем размер объекта, который вы хотите обнаружить. Предполагая, что у вас есть слой с достаточным количеством сверточных фильтров, вы хотите, чтобы чувствительное поле было размером, чтобы фильтры могли обнаружить объекты (края, цвета, текстуры и т. Д.) Объекта. Затем последующие слои вашего CNN объединяют функции для обнаружения совокупного объекта.

Например, см. here. На рисунке под заголовком «Примеры фильтров ...» показаны извлеченные сверточные фильтры, которые имеют восприимчивые поля размером 11х11 пикселей, тогда как объект, который будет обнаружен (автомобиль в этом случае), охватывает сотни пикселей.

+0

Да, но фильтр 11x11 не является окончательным восприимчивым полем. Это может быть восприимчивое поле в первом слое, но когда много слоев укладывается, растет восприимчивое поле. Таким образом, может быть, что в последнем слое с фильтром 3x3 эффективное восприимчивое поле этого слоя может покрыть 200x200 пикселей в исходном изображении, и поэтому оно охватывает почти весь автомобиль. – Biba

+0

Я вижу - вы имеете в виду эффективное восприимчивое поле конечного сверточного слоя. Я не думаю, что необходимо, чтобы ваше окончательное поле восприятия было больше, чем объект, но производительность сети, вероятно, будет в большей степени зависеть от того, как вы структурировали полностью связанные (или другие) слои за сверточными слоями , – bogatron

 Смежные вопросы

  • Нет связанных вопросов^_^