У меня очень простой вопрос. Когда мы выполняем градиентный спуск с параметрами регуляризации типов $ L_1 $ и/или $ L_2 $, а именно: расширение функции потерь $ L $ сОценка значения множителей типа L1 и L2
$$ L_r = L + l_1 \ sum_i | \ pi_i | + l_2 \ sum_j || \ pi_j ||^2 $$
Почему мы не включаем переменные $ l_1 $ и $ l_2 $ в правило обновления градиентного спуска?
Может быть, я не понял ваш вопрос, но если вы хотите добавить термин упорядочению к вашей функции затрат вы увидите его в градиентных правилах обновления спуска. И вы увидите его с параметром l1 или l2, этот параметр устанавливает компромисс между необходимой точностью классификации на тестовом наборе и нормой веса. Например, этот параметр называется лямбдой здесь http://dudarev.com/wiki/ml-class-logistic-regression.html –
Вопрос в том, почему мы оптимизируем условия l1 и l2 внутри градиента приличным? Я предполагаю, что это будет всегда возвращать значения l1 и l2 = 0, но я не уверен. – emanuele