跳转至

梯度

梯度定义及与泰勒展开的关系

考虑一个可微函数 \(f:\mathbb{R}^n \rightarrow \mathbb{R}\) ,在点 \(\mathbf{x}\) 处的梯度定义为:

\[\nabla f(\mathbf{x}) = \begin{bmatrix}\dfrac{\partial f}{\partial x_1}(\mathbf{x})& \dfrac{\partial f}{\partial x_2}(\mathbf{x})& \cdots & \dfrac{\partial f}{\partial x_n}(\mathbf{x})\end{bmatrix}^\top \]

我们考虑在点 \(\mathbf{x}\) 处做一阶泰勒展开,有

\[\begin{aligned} f(\mathbf{x}+\Delta\mathbf{x}) &= f(\mathbf{x})+df(\mathbf{x})\Delta\mathbf{x}+o(\left\|\Delta\mathbf{x}\right\|)\\ &=f(\mathbf{x})+ \begin{pmatrix}\dfrac{\partial f}{\partial x_1} & \cdots & \dfrac{\partial f}{\partial x_n}\end{pmatrix}\cdot\begin{pmatrix}\Delta x_1\\ \vdots\\ \Delta x_n\end{pmatrix} + o(\left\|\Delta\mathbf{x}\right\|)\\ &= f(\mathbf{x}) + \nabla f(\mathbf{x})\cdot \Delta\mathbf{x} + o(\left\|\Delta\mathbf{x}\right\|) \end{aligned}\]

方向导数

给定可微函数 \(f:\mathbb{R}^n \rightarrow \mathbb{R}\) ,在点 \(\mathbf{x}\) 处沿单位向量 \(\mathbf{u}\) 的方向导数定义为

\[D_{\mathbf{u}}f(\mathbf{x})=\lim_{h\rightarrow0}\frac{f(\mathbf{x}+h\mathbf{u})-f(\mathbf{x})}{h}\]

方向导数表示函数 \(f\) 在点 \(\mathbf{x}\) 处沿 \(\mathbf{u}\) 方向的变化率。

我们加以计算:

\[\begin{aligned} D_{\mathbf{u}}f(\mathbf{x}) &=\lim_{h\rightarrow0}\frac{f(\mathbf{x}+h\mathbf{u})-f(\mathbf{x})}{h}\\ &=\lim_{h\rightarrow 0}\frac{f(\mathbf{x})+\nabla f(\mathbf{x})\cdot (h\mathbf{u})+o(h)-f(\mathbf{x})}{h}\\ &=\nabla f(\mathbf{x}) \cdot \mathbf{u} \end{aligned}\]

梯度方向是函数值上升最快的方向

给定可微函数 \(f:\mathbb{R}^n \rightarrow \mathbb{R}\) ,在点 \(\mathbf{x}\) 处,考虑不同方向的函数值变化率:

\[\begin{aligned} \nabla f(\mathbf{x}) \cdot \mathbf{u}_{\theta} &= \left\|\nabla f(\mathbf{x})\right\|\cdot \left\|\mathbf{u}_\theta\right\| \cdot \cos\theta\\ &= \left\|\nabla f(\mathbf{x})\right\|\cdot \cos\theta \end{aligned}\]

上式中的 \(\theta\) 代表梯度向量与单位方向向量 \(\mathbf{u}\) 之间的夹角。容易发现,当 \(\cos\theta = 1\) 时,函数值变化率最大。此时,方向向量 \(\mathbf{u}\) 与梯度向量重合。

因此,梯度方向是函数值上升最快的方向。