梯度
梯度定义及与泰勒展开的关系
考虑一个可微函数 \(f:\mathbb{R}^n \rightarrow \mathbb{R}\) ,在点 \(\mathbf{x}\) 处的梯度定义为:
\[\nabla f(\mathbf{x}) = \begin{bmatrix}\dfrac{\partial f}{\partial x_1}(\mathbf{x})& \dfrac{\partial f}{\partial x_2}(\mathbf{x})& \cdots & \dfrac{\partial f}{\partial x_n}(\mathbf{x})\end{bmatrix}^\top \]
我们考虑在点 \(\mathbf{x}\) 处做一阶泰勒展开,有
\[\begin{aligned}
f(\mathbf{x}+\Delta\mathbf{x}) &= f(\mathbf{x})+df(\mathbf{x})\Delta\mathbf{x}+o(\left\|\Delta\mathbf{x}\right\|)\\
&=f(\mathbf{x})+ \begin{pmatrix}\dfrac{\partial f}{\partial x_1} & \cdots & \dfrac{\partial f}{\partial x_n}\end{pmatrix}\cdot\begin{pmatrix}\Delta x_1\\ \vdots\\ \Delta x_n\end{pmatrix} + o(\left\|\Delta\mathbf{x}\right\|)\\
&= f(\mathbf{x}) + \nabla f(\mathbf{x})\cdot \Delta\mathbf{x} + o(\left\|\Delta\mathbf{x}\right\|)
\end{aligned}\]
方向导数
给定可微函数 \(f:\mathbb{R}^n \rightarrow \mathbb{R}\) ,在点 \(\mathbf{x}\) 处沿单位向量 \(\mathbf{u}\) 的方向导数定义为
\[D_{\mathbf{u}}f(\mathbf{x})=\lim_{h\rightarrow0}\frac{f(\mathbf{x}+h\mathbf{u})-f(\mathbf{x})}{h}\]
方向导数表示函数 \(f\) 在点 \(\mathbf{x}\) 处沿 \(\mathbf{u}\) 方向的变化率。
我们加以计算:
\[\begin{aligned}
D_{\mathbf{u}}f(\mathbf{x})
&=\lim_{h\rightarrow0}\frac{f(\mathbf{x}+h\mathbf{u})-f(\mathbf{x})}{h}\\
&=\lim_{h\rightarrow 0}\frac{f(\mathbf{x})+\nabla f(\mathbf{x})\cdot (h\mathbf{u})+o(h)-f(\mathbf{x})}{h}\\
&=\nabla f(\mathbf{x}) \cdot \mathbf{u}
\end{aligned}\]
梯度方向是函数值上升最快的方向
给定可微函数 \(f:\mathbb{R}^n \rightarrow \mathbb{R}\) ,在点 \(\mathbf{x}\) 处,考虑不同方向的函数值变化率:
\[\begin{aligned}
\nabla f(\mathbf{x}) \cdot \mathbf{u}_{\theta} &= \left\|\nabla f(\mathbf{x})\right\|\cdot \left\|\mathbf{u}_\theta\right\| \cdot \cos\theta\\
&= \left\|\nabla f(\mathbf{x})\right\|\cdot \cos\theta
\end{aligned}\]
上式中的 \(\theta\) 代表梯度向量与单位方向向量 \(\mathbf{u}\) 之间的夹角。容易发现,当 \(\cos\theta = 1\) 时,函数值变化率最大。此时,方向向量 \(\mathbf{u}\) 与梯度向量重合。
因此,梯度方向是函数值上升最快的方向。