有一个:
\[ z(x,y) = \sqrt {x^2 + y^2} \] 它的开口向上, 最低点为原点\(O\). \(z\)方向的俯视图如下:现想象你自己是一个有意识的能移动的小质点, 站在曲面上一个非原点的位置\((x, y)\)上, 如图上的小红圈所示. 你看不到整个曲面的全貌, 能看到的只有以你为中心的,半径为\(r\)(为投影在xoy平面上的值)的水平视野内的地貌. 因为曲面是光滑的, 所以地貌全部内容就是坡度. 现在你要做的是, 根据眼前能看到的地貌, 一步一步走, 步长为\(r\), 以最少的步数到达最低点. 注意, 因为你是质子, 本身很小, 所以你的水平视野半径\(r\)也会很小很小, 几乎为0.
你唯一能做的就是走一步看一步. 每一步能依据的信息就是各个方向的坡度. 用射线段\(l\)表示方向, 起点是你自己, 长度为\(r\), 与\(x\)轴的夹角为\(\alpha\). 假如你选择了\(\alpha\)方向, 则走完这一步之后, 你的xoy坐标为\((x + rcos\alpha, y + rsin\alpha)\), 高度\(z\)变为\(z(x + rcos\alpha, y + rsin\alpha)\). 你唯一知晓的坡度, 即高度变化率, 可以量化为:
\[ 坡度 = \frac {z(x + rcos\alpha, y + rsin\alpha)}{r} = \frac {\partial z}{\partial x} cos\alpha + \frac {\partial z}{\partial y} sin\alpha \] 在微积分里, 它也被称为\(z\)沿射线段\(l\)的方向导数, 用\(\frac {\partial z}{\partial l}\)表示. 当然, 你能观察到的只是它的数值, 而非表达式. 将其写成两个向量的内积形式:\[ \frac {\partial z}{\partial l} = (\frac {\partial z}{\partial x}, \frac {\partial z}{\partial y})(cos\alpha, sin\alpha)^T = grad^T n \]\(grad = (\frac {\partial z}{\partial x}, \frac {\partial z}{\partial y})^T\)也称为\(z\)在\((x, y)\)处的梯度. \(n=(cos\alpha, sin\alpha)^T\)则是\(l\)的单位方向向量. 因为\(\Delta z \propto \frac {\partial z}{\partial l} = grad^T n\), 所以:- 当\(n\)与\(grad\)同向时, \(grad^T n\)为正数最大. 若沿\(n\)方向走一步, \(z\)值最大限度的增大.
- 当\(n\)与\(grad\)反向时, \(grad^T n\)为负数最大. 若沿\(n\)方向走一步, \(z\)值最大限度的降低.
由于你的目的是往下走, 所以应该选择\(-grad\)方向. 每走一步, \(x与y\)的变化方式为:
\[ (x, y) \gets (x, y) - r\frac {grad^T}{||grad||} \]嗯, 记住你现在还是个质子, 你的\(r\)很小很小. 如果你离目的地(原点)还很远的话, 要费很多很多极多的步子才能到达. 切换到实际应用中求最小值点的场景, 就意味着很长很长的计算时间. 所以往往不是将\(r\)固定为一个极小的值, 而是将\(\frac r{|grad|}\)固定为一个值: \(lr\), 称作为step size. 在机器学习里就是learning rate, 学习速率. 所以上式改为:
\[ (x, y) \gets (x, y) - lr*(\frac {\partial z}{\partial x}, \frac {\partial z}{\partial y}) \] 路径如图中红线所示: 这种数值方法又叫做(单纯的)牛顿梯度下降法, 用于求最小值(点), 可以放心的推广到更高维空间. 不过有一个前提是目标函数是凹的, 即乘以\(-1\)后是凸的. 不然, 最后有可能会停留在局部最优而非全局最优.用于画出路径的matlab代码:
close all;phi = pi/6;a = -pi:.05*pi:pi;r = 0: .1: 2;[A, R] = meshgrid(a, r);X = R.* cos(A);Y = R.* sin(A);Z = cot(phi) * sqrt(X.^2 + Y.^2);surf(X, Y, Z);hold on;plot3([1],[1], cot(phi)*sqrt(2), 'ro');alpha(.8);Xs = [];Ys = [];Zs = [];lr = 0.001;x = 1;y = 1;%z = cot(phi) * sqrt(x^2 + x^2);for i = 1:10^4 x = x - lr * x / sqrt(x^2 + y^2); y = y - lr * y / sqrt(x^2 + y^2); z = cot(phi) * sqrt(x^2 + x^2) % plot3(x,y, z, 'r.'); Xs = [Xs, x]; Ys = [Ys, y]; Zs = [Zs, z];end plot3(Xs, Ys, Zs, 'r.');