Я работаю в распознавании лиц с глубокой нейронной сетью. Я использую базу данных CASIA-webface 10575 классов для обучения глубокому CNN (используется CASIA, см. Раздел paper) из 10 сверток, 5 пулов и 1 полностью подключенный слой. Для активации используется функция "ReLU"
. Я смог успешно тренировать его, используя caffe и получил желаемую производительность.Невозможно тренироваться/настраиваться с PReLU в caffe
Моя проблема заключается в том, что Я не смогу обучить/точно настроить тот же CNN, используя "PReLU"
активация. Сначала я подумал, что простую замену "ReLU"
с "PReLU"
выполнит эту работу. Тем не менее, ни один из тонкой настройки (из caffemodel, который был изучен с "ReLU"
) и учиться с нуля стратегии работали.
Чтобы упростить задачу обучения, я значительно сократил набор учебных материалов только на 50 классов. Однако CNN не смог учиться с "PReLU"
, тогда как он смог учиться с "ReLU"
.
Для того, чтобы понять, что моя кофейная отлично работает с "PReLU"
, я проверил его, выполнив простые сети (как с "ReLU"
и "PReLU"
) с использованием данных cifar10, и она работала.
Я хотел бы узнать из сообщества, если у кого есть подобные наблюдения. Или если кто-то может предложить какое-либо предложение для решения этой проблемы.
Вы изменили какие-либо параметры тренировки? Например, скорость обучения или конвергенция? Точная настройка модели иногда требует точной настройки параметра или двух параметров. Кроме того, я не уверен, где вставлены функции P/ReLU: бумага не вызывает их, поэтому я предполагаю их в обычных местах (рядом с POOL). – Prune
Да, я пробовал с различными параметрами обучения, как вы упомянули. P/ReLU вставлен после слоя Conv. – Hasnat