3

В проблеме регрессии машинного обучения, почему локальный минимум вычисляется для производной функции вместо фактической функции?Почему производная от функции используется для вычисления Local Minimum вместо фактической функции?

Пример: http://en.wikipedia.org/wiki/Gradient_descent

Алгоритм градиентного спуска применяется, чтобы найти локальный минимум функции $$

f(x)=x^4−3x^3+2, ----(A) 

с производной

f'(x)=4x^3−9x^2. ----(B) 

здесь, чтобы найти локальный минимум с помощью градиентного спуска для функции (A) они использовали производную функцию (A), которая является функцией (B).

ответ

3

Причина в том, что функция вогнута (или выпуклая, если вы делаете максимизацию --- эти проблемы эквивалент), вы знаете, что существует один минимум (максимум). Это означает, что существует единственная точка, где градиент равен нулю. Существуют методы, которые используют эту функцию, но если вы можете вычислить градиент, вы можете сблизиться гораздо быстрее, потому что можете подумать о градиенте, дающем вам информацию о том, как далеко вы из оптимального.

Как и Gradient Descent, существует метод оптимизации, известный как Newton's method, для которого требуется вычислить вторую производную (метод Гессиана в многовариантной оптимизации). Это сходится еще быстрее, но требует от вас возможности инвертировать гессиан, что невозможно, если у вас много параметров. Итак, есть способы обойти это, которые вычисляют limited memory approximation of the Hessian. Эти методы сходятся быстрее, потому что они используют информацию о кривизне градиента: это простой компромисс, где, чем больше вы знаете о функции, которую вы пытаетесь оптимизировать, тем быстрее вы сможете найти решение.

+1

Извините, у меня очень глупый вопрос. f '(x) = 4x^3-9x^2. Просто взглянув на функцию, мы можем найти локальный минимум, т. е. f' (x) = 0 будет иметь место при x = 0, то для чего нам нужен градиентный спуск. – user703555

+0

Ну, это не совсем просто, глядя на него: вы можете решить для x, когда f '(x) = 0. Это простой пример: большую часть времени, когда вы используете методы оптимизации, вы не можете получить аналитическое решение , Взгляните на http://en.wikipedia.org/wiki/Convex_optimization для более подробной информации. –

1

Я не математик - так что я не могу дать вам точный ответ, однако, вы должны понимать, что вывод делает, например:

http://en.wikipedia.org/wiki/Derivative http://en.wikipedia.org/wiki/Differential_of_a_function

это то, что вам нужно (то, что дифференцировка делать): http://en.wikipedia.org/wiki/File:Graph_of_sliding_derivative_line.gif

производная в точке равна наклону касательной к графику функции в этой точке. И это именно то, что вам нужно, когда вы смотрите на спуск. Возьмите его как очень неформальную точку зрения, статьи в википедии дадут вам гораздо более глубокие и точные знания ...

 Смежные вопросы

  • Нет связанных вопросов^_^