2

В AlexNet данные изображения 3*224*224.Число нейронов в AlexNet

Первый сверточный слой фильтрует изображение с 96 ядрами размером 11*11*3 с шагом 4 пикселей.

У меня есть сомнения в отношении количества нейронов на первом уровне.

На мой взгляд, вход 224*224*3=150528, то выход должен быть 55*55*96=290400

Но в работе, они описали выход 253440

Я не знаю, как рассчитать количество этого слой нейронов.

Кто-нибудь может мне помочь? Спасибо!

+1

По-моему, вы обнаружили, что в документе явно ошибочно. Я согласен, что выход первого уровня должен быть 290400. – Aenimated1

+0

Думаю, я вижу, что они сделали. 48 * 55 * 96 = 253440. Это просто прикол. – Aenimated1

+0

@ Aenimated1 Я не знаю почему '48 * 55'. Я думаю, что размер отфильтрованного изображения равен' 55 * 55'. – zdczdcc

ответ

0

Я также считаю, что это ошибка автора, я нашел доказательство в the courseware of stanford cs231n, в 10-м и 11-й странице, вы можете обнаружить, что выходной размер первого конв является 290400.

1

Похоже размер ввода 227x227, без заполнения. Я также думаю, что то, что они упоминают в статье, является ошибкой. Посмотрите на эту ссылку.

http://cs231n.github.io/convolutional-networks/

Он упоминает следующую информацию.

Крижевский и др. архитектура, которая выиграла задачу ImageNet в 2012 году, приняла изображения размера [227x227x3]. На первом сверточном слое использовались нейроны с размером поля возбуждения F = 11, шаг S = 4 и отсутствие нулевой прокладки P = 0. Поскольку (227 - 11)/4 + 1 = 55, а так как слой Conv имел глубину K = 96, выходной объем слоя Conv имел размер [55x55x96]. Каждый из нейронов 55 * 55 * 96 в этом томе был подключен к области размера [11x11x3] во входном объеме. Более того, все 96 нейронов в каждом столбце глубины подключены к той же [11x11x3] области ввода, но, разумеется, с разными весами. В качестве забавы в сторону, если вы читаете фактическую бумагу, она утверждает, что входные изображения были 224x224, что, безусловно, неверно, потому что (224 - 11)/4 + 1 явно не является целым числом. Это путало многих людей в истории ConvNets, и мало что известно о том, что произошло. Я полагаю, что Алекс использовал нулевое дополнение из трех дополнительных пикселей, о которых он не упоминает в статье.

+0

Да, я допустил ошибку. Размер ввода google-net составляет 224x224, alex-net - 227x227. – zdczdcc