В настоящее время я делаю курс Эндрю Н.Г. По моим знаниям об исчислении, первый производный тест функции дает критические точки, если они есть. И учитывая выпуклый характер функции стоимости линейной/логистической регрессии, задано, что будут глобальные/локальные оптимумы. Если это так, вместо того, чтобы идти длинным путем принятия минимального детского шага за один раз, чтобы достичь глобального минимума, почему бы нам не использовать первый производный тест для получения значений Theta, которые минимизируют стоимость функции J в единственная попытка и счастливый конец?Не установил бы первую производную функции стоимости J на 0, чтобы получить точные значения Theta, которые минимизируют стоимость?
Это, как говорится, я знаю, что есть альтернатива Gradient Descent под названием Normal Equation, которая делает это только на одном успешном этапе, в отличие от первого.
С другой стороны, я думаю, что если это происходит главным образом из-за множества неизвестных переменных, участвующих в уравнении (именно поэтому вступает в игру Partial Derivative?).
Поскольку решение для него не закрыто, и/или использование уравнений Normal является вычислительно дорогостоящим с большим количеством данных. – ilanman