Ваше решение часто используется для решения этой проблемы. Тем не менее, я бы сказал, что это зависит от данных, если это действительно имеет смысл. Позвольте мне привести два примера, которые вы все еще можете найти в kaggle.
Если вы хотите замаскировать определенные части спутниковых изображений, вы, вероятно, избежите этого подхода без снижения точности. Эти изображения очень повторяющиеся, и, вероятно, нет никакой корреляции между сегментированной областью и где в исходном изображении, из которого она была взята.
Если вы хотите сегментировать автомобиль на своем фоне, не хотелось бы разбивать его на пятна. На нескольких уровнях сеть узнает глобальное распределение автомобиля в кадре. Очень вероятно, что маска положительна в середине и отрицательна в углах изображения.
Поскольку вы не указали какой-либо специфики, что вы пытаетесь решить, я могу дать только общую рекомендацию: Постарайтесь сохранить входные изображения настолько большими, насколько позволяет ваше оборудование. Во многих ситуациях я предпочел бы уменьшить исходные изображения, чем разбивать их на патчи.
Что касается рекомендации curio1729, я могу посоветовать только обучение на небольших участках и тестирование исходных изображений. Хотя это технически возможно благодаря полностью сверточным сетям, вы меняете данные до предела, что может сильно повредить производительность. CNN известны тем, что они извлекают локальные функции, но есть большая часть глобальной информации, которая изучается над абстракцией нескольких слоев.
Почему бы вам не подобрать модель прямо на изображениях '3072' напрямую? – drpng
Имеет только 100 изображений около 3072 изображений. Кроме того, обучение по большим изображениям кажется слишком медленным. Я пробовал обучать модель с 256 * 256, 128 * 128 и 64 * 64. Время обучения увеличивается очень быстро, так как размер патча увеличивается. – user288609