跳转至

向量范数与矩阵范数

参考资料说明

本文摘抄自周克敏老师的《鲁棒与最优控制》一书。

定义

考虑一个向量空间 \(X\)\(\left\|\cdot\right\|\) 为定义在该空间上的一个实值函数,若对于任意 \(x,y \in X\) ,有:

  1. \(\left\|x\right\| \ge 0\)
  2. \(\left\|x\right\| \ge 0 \ \ \mathrm{iff} \ \ x = 0\)
  3. 对任意标量 \(\alpha\) ,有 \(\left\|\alpha x\right\| = \left|\alpha\right|\left\|x\right\|\)
  4. \(\left\|x+y\right\| \le \left\|x\right\|\left\|y\right\|\)

则称该实值函数是一个范数。如果满足 1,3,4 而不满足 2,则称该函数为拟范数

向量范数

对于一个 n 维向量 \(x\) ,其 p-范数定义为

\[\left\|x\right\|_p := \left(\sum_{i=0}^n\left|x_i\right|)^p\right)^{1/p}\]

特别地,当 \(p = 1,2,\infty\) 时,分别有

\[\begin{align} &\left\|x \right\|_1 = \sum_{i=0}^n \left|x_i\right|\\ &\left\|x \right\|_2 = x^\top x=\sqrt{\sum_{i=0}^nx_i^2}\\ &\left\|x \right\|_{\infty} = \max_{1\le i \le n}\left|x_i\right|\\ \end{align}\]

矩阵范数

1 诱导范数

矩阵范数可以由向量范数诱导得到,诱导方式是

\[\left\|A\right\|_p = \sup_{x\neq 0}\frac{\left\|Ax\right\|_p}{\left\|x\right\|_p}\]

其中, \(\sup\) 代表上确界。这种定义能够满足三角不等式关系,即对于任意 \(x \neq 0\) ,都有 \(\left\|A\right\|_p\left\|x\right\|_p \le \left\|Ax\right\|_p\)

特别地,当 \(p = 1,2,\infty\) 时,对于矩阵 \(A\in \mathbb{C}^{m\times n}\) ,分别有

\[\begin{align} &\left\|A \right\|_1 = \max_{1\le j\le n}\sum_{i=1}^m\left|a_{ij}\right| \ \text{(最大列向量 1-范数)}\\ &\left\|A \right\|_2 = \sqrt{\lambda_{max}\left(A^*A\right)}\ \text{(最大特征值)}\\ &\left\|A \right\|_{\infty} = \max_{1\le i \le m}\sum_{j=1}^{n}\left|a_{ij}\right|\ \text{(最大行向量 1-范数)}\\ \end{align}\]

这里的 \(A^*A\) 是一个 Hermitian 厄米矩阵。它是半正定的,因为 \(x^*A^*Ax = (Ax)^*(Ax) = \left\|Ax \right\|_2 \ge 0\) 。基于此,其特征值都非负。因为 \(x^*A^*Ax = \lambda x^*x = \lambda \left\|x\right\|_2 \ge 0\)\(\left\|x\right\|_2 \ge 0\)

Hermitian 厄米矩阵:对称矩阵在复数域的对应,具有共轭对称不变的性质,即 \(A^* = A\)

特别地,如果 \(A\) 是一个 Hermitian 矩阵,则有

\[\begin{aligned} \left\|A\right\|_2 &= \sqrt{\lambda_{max}(A^*A)}= \sqrt{\lambda_{max}(A^2)}\\ &= \sqrt{\lambda^2_{max}(A)} = \lambda_{max}(A) \end{aligned}\]

矩阵平方的特征值等于矩阵特征值的平方,这是因为 \(A^2 x = A(\lambda x) = \lambda Ax = \lambda^2 x\)


我们举一个稍微具体些的例子:有一个 3×4 的矩阵

\[A = \begin{bmatrix}a_{11} & a_{12} & a_{13} & a_{14}\\ a_{21} & a_{22} & a_{23} & a_{24}\\ a_{31} & a_{32} & a_{33} & a_{34}\end{bmatrix} = \begin{bmatrix}(\alpha_1)_{3\times 1} & \alpha_2 & \alpha_3 & \alpha_4\end{bmatrix} = \begin{bmatrix}(\beta_1)_{1\times 4}\\ \beta_2\\ \beta_3\\ \beta_4\end{bmatrix}\]

以及一个不为 0 的向量 \(x = \begin{bmatrix}x_1 & x_2 & x_3 & x_4\end{bmatrix}^\top\)

\[\begin{aligned} \frac{\left\|Ax\right\|_1}{\left\|x\right\|_1} &= \frac{x_1\left\|\alpha_1\right\|_1 + x_2\left\|\alpha_2\right\|_1 +x_3\left\|\alpha_3\right\|_1 +x_4\left\|\alpha_4\right\|_1}{x_1+x_2+x_3+x_4}\\ & \le \frac{(x_1+x_2+x_3+x_4)\max_{1\le j \le n}\left\|\alpha_j\right\|_1}{x_1+x_2+x_3+x_4}\\ &= \max_{1\le j \le n}\left\|\alpha_j\right\|_1\\ \frac{\left\|Ax\right\|_2}{\left\|x\right\|_2} &= \sqrt{\frac{x^* A^* Ax}{x^* x}} \ \ (A^* A 可以相似对角化为 Q^\top diag\{\lambda_1,\lambda_2,\cdots, \lambda_n\}Q)\\ &= \sqrt{\frac{(Qx)^* diag\{\lambda_1,\lambda_2,\cdots, \lambda_n\} Qx}{x^* x}}\\ &= \sqrt{\frac{(Qx)^* diag\{\lambda_1,\lambda_2,\cdots, \lambda_n\} Qx}{(Qx)^* Qx}} \ \ (记 Qx = y)\\ &= \sqrt{\frac{y^* diag\{\lambda_1,\lambda_2,\cdots, \lambda_n\} y}{y^* y}} = \sqrt{\frac{\sum_{i=1}^n\lambda_i \left|y_i\right|^2}{\sum_{i = 1}^n \left|y_i\right|^2}}\\ & \le \sqrt{\frac{\lambda_{max}\sum_{i=1}^n\left|y_i\right|^2}{\sum_{i = 1}^n \left|y_i\right|^2}} = \sqrt{\lambda_{max}(A^*A)}\\ \frac{\left\|Ax\right\|_\infty}{\left\|x\right\|_\infty} &= \frac{\left\|A\left\|x\right\|_{\infty} y\right\|_{\infty}}{\left\|x\right\|_{\infty}} = \left\|Ay\right\|_{\infty} \ \ (y = \frac{x}{\left\|x\right\|_{\infty}})\\ &= \max_{1\le i \le m}\left|\beta_iy\right| = \max_{1\le i \le m} \left|\sum_{j=1}^na_{ij}y_j\right|\le\max_{1\le i \le m} \sum_{j=1}^n\left|a_{ij}\right|\left|y_j\right|\ \ (\left|y_j\right|<1)\\ &\le \max_{1\le i \le m} \sum_{j=1}^n\left|a_{ij}\right| \end{aligned}\]

“增益”视角

把矩阵 \(A \in \mathbb{C}^{m\times n}\) 视为从向量空间 \(\mathbb{C}^n\) 到向量空间 \(\mathbb{C}^m\) 的映射。从系统角度看,矩阵范数可以理解为输出/输入的放大增益。

Frobenius 范数

对于矩阵 \(A \in \mathbb{C}^{m\times n}\) ,Frobenius 范数定义为

\[\left\|A\right\|_F = \sqrt{\mathrm{Trace}(A^*A)} = \sqrt{\sum_{i=1}^m\sum_{j=1}^{n}(a_{ij})^2}\]