Воспринимающее поле определяет количество пикселей, которые учитываются при принятии решения. Если вы используете подмножество объекта, чтобы определить, является ли это определенным подмножеством, это похоже на взятие урожая и попросить человека определить, какой объект он является, что трудно сделать.
Как правило, полезно принимать во внимание окружающие данные для принятия обоснованного решения.
Единственная проблема с использованием слишком большой информации об окружающей среде заключается в том, что сеть может принимать решения на основе чего-то, что не связано с самим объектом, потому что оно коррелировано в наборе обучения, но не в реальной жизни. Например. Классификация автомобилей. У вас есть красный фон для каждой Audi и для другого автомобиля. Поэтому, если вы используете все изображение в качестве восприимчивого поля, оно, вероятно, будет классифицировать Audi на основе фона, а не характеристик автомобиля.
Редактировать к вашему осветлению:
я сделал что-то подобное с отпечатками пальцев. Я бы посоветовал вам взглянуть на сегментацию бинарных изображений и использовать область 6x6 или что-то для каждого объекта, чтобы функция потерь была более плавной. Это лучше всего подходит для моего дела.
Это чисто теоретический вопрос, потому что вам понадобится достаточная глубина для архивирования хороших результатов в любом случае, и восприимчивое поле будет больше, чем объект в любом случае. Кроме того, поскольку объект может изменить свой размер, для всех объектов в сцене не будет зафиксирован фиксированный восприимчивый размер. Тем не менее, это был бы интересный эксперимент, если бы он помог ограничить восприимчивый размер пикселя. Я так не думаю.
Хорошо, я понимаю, что в этом случае более крупных объектов классификации имеет смысл, что размер фильтра не должен быть небольшим и не большим. Мое дело больше похоже на проблему оценки плотности. Давайте рассмотрим, что у меня есть ячейки размером 10x10 - 16x16 в изображении. И мой патч для изображения размером 72x72. Если мое эффективное восприимчивое поле (через множество фильтров 3x3 + пулы слоев) на последнем слое будет охватывать весь фрагмент изображения 72x72, а в качестве примера патч для изображения имеет одну ячейку посередине, тогда каждый нейрон в последнем слое будет иметь такое же значение? – Biba
Почему бы вам не обрезать изображения в нужном размере, чтобы вам не нужно беспокоиться о поле приема? Я имею в виду извлечение отдельных ячеек и просто подачу их в сеть. –
С одной ячейкой в середине изображения патч был просто примером. Изображение может выглядеть так: [https://s-media-cache-ak0.pinimg.com/originals/77/4b/09/774b098dd3e9eec4884701d97c93d47b.jpg] Таким образом, может быть также половина ячейки или больше/меньше а также перекрытие и т. д. ... – Biba