0

В настоящее время я делаю курс Эндрю Н.Г. По моим знаниям об исчислении, первый производный тест функции дает критические точки, если они есть. И учитывая выпуклый характер функции стоимости линейной/логистической регрессии, задано, что будут глобальные/локальные оптимумы. Если это так, вместо того, чтобы идти длинным путем принятия минимального детского шага за один раз, чтобы достичь глобального минимума, почему бы нам не использовать первый производный тест для получения значений Theta, которые минимизируют стоимость функции J в единственная попытка и счастливый конец?Не установил бы первую производную функции стоимости J на ​​0, чтобы получить точные значения Theta, которые минимизируют стоимость?

Это, как говорится, я знаю, что есть альтернатива Gradient Descent под названием Normal Equation, которая делает это только на одном успешном этапе, в отличие от первого.

С другой стороны, я думаю, что если это происходит главным образом из-за множества неизвестных переменных, участвующих в уравнении (именно поэтому вступает в игру Partial Derivative?).

+0

Поскольку решение для него не закрыто, и/или использование уравнений Normal является вычислительно дорогостоящим с большим количеством данных. – ilanman

ответ

0

Давайте рассмотрим пример:

Градиент функции простой регрессии стоимость:

Δ[RSS(w) = [(y-Hw)T(y-Hw)] 
y : output 
H : feature vector 
w : weights 
RSS: residual sum of squares 

Приравнивая в 0 для получения закрытой форме раствора даст:

ш = (Н T H) -1 H T y

Теперь предполагается наличие D featu res, сложность времени для вычисления транспонирования матрицы составляет около O (D). Если есть миллион функций, это невозможно вычислить в разумные сроки.

Мы используем эти методы спуска градиента, поскольку они дают решения с приемлемыми приемлемыми решениями за гораздо меньшее время.