Я знаю, что рукописные цифровые изображения в наборе данных mnist составляют 28 × 28, но почему вход в LeNet5 составляет 32 × 32?Почему LeNet5 использует 32 × 32 изображения в качестве входных данных?
ответ
Ваш вопрос отвечает в original paper:
Стадия свертки всегда занимает меньший вклад, чем художественные карты предыдущего слоя (и это справедливо для 1-го слоя - вход - а):
Слой C1 представляет собой сверточный слой с 6 картами функций. Каждый блок на каждой карте функций подключен к 5x5-окрестности на входе. Размер функциональных карт - 28x28 , который предотвращает падение соединения с входа .
Это означает, что с помощью 5x5 окрестностей на входе 32х32, вы получите 6 особенности карты размера 28х28, потому что есть пиксели, вы не будете использовать на границе изображения (вы всегда будете иметь остаток с этими номерами).
Конечно, у них может быть исключение для первого слоя. Причина, по которой они все еще используют изображения 32x32:
Вход представляет собой изображение размером 32x32 пикселя. Это значительно больше , чем самый большой символ в базе данных (не более 20x20 пикселей с центром в поле 28x28). Причина в том, что желательно, чтобы потенциальные отличительные признаки, такие как штрих-коды , могли быть в центре восприимчивого поля детекторов функций самого высокого уровня.