向量范数与矩阵范数
参考资料说明
本文摘抄自周克敏老师的《鲁棒与最优控制》一书。
定义
考虑一个向量空间 \(X\) ,\(\left\|\cdot\right\|\) 为定义在该空间上的一个实值函数,若对于任意 \(x,y \in X\) ,有:
- \(\left\|x\right\| \ge 0\) ;
- \(\left\|x\right\| \ge 0 \ \ \mathrm{iff} \ \ x = 0\) ;
- 对任意标量 \(\alpha\) ,有 \(\left\|\alpha x\right\| = \left|\alpha\right|\left\|x\right\|\) ;
- \(\left\|x+y\right\| \le \left\|x\right\|\left\|y\right\|\) ,
则称该实值函数是一个范数。如果满足 1,3,4 而不满足 2,则称该函数为拟范数。
向量范数
对于一个 n 维向量 \(x\) ,其 p-范数定义为
\[\left\|x\right\|_p := \left(\sum_{i=0}^n\left|x_i\right|)^p\right)^{1/p}\]
特别地,当 \(p = 1,2,\infty\) 时,分别有
\[\begin{align}
&\left\|x \right\|_1 = \sum_{i=0}^n \left|x_i\right|\\
&\left\|x \right\|_2 = x^\top x=\sqrt{\sum_{i=0}^nx_i^2}\\
&\left\|x \right\|_{\infty} = \max_{1\le i \le n}\left|x_i\right|\\
\end{align}\]
矩阵范数
1 诱导范数
矩阵范数可以由向量范数诱导得到,诱导方式是
\[\left\|A\right\|_p = \sup_{x\neq 0}\frac{\left\|Ax\right\|_p}{\left\|x\right\|_p}\]
其中, \(\sup\) 代表上确界。这种定义能够满足三角不等式关系,即对于任意 \(x \neq 0\) ,都有 \(\left\|A\right\|_p\left\|x\right\|_p \le \left\|Ax\right\|_p\) 。
特别地,当 \(p = 1,2,\infty\) 时,对于矩阵 \(A\in \mathbb{C}^{m\times n}\) ,分别有
\[\begin{align}
&\left\|A \right\|_1 = \max_{1\le j\le n}\sum_{i=1}^m\left|a_{ij}\right| \ \text{(最大列向量 1-范数)}\\
&\left\|A \right\|_2 = \sqrt{\lambda_{max}\left(A^*A\right)}\ \text{(最大特征值)}\\
&\left\|A \right\|_{\infty} = \max_{1\le i \le m}\sum_{j=1}^{n}\left|a_{ij}\right|\ \text{(最大行向量 1-范数)}\\
\end{align}\]
这里的 \(A^*A\) 是一个 Hermitian 厄米矩阵。它是半正定的,因为 \(x^*A^*Ax = (Ax)^*(Ax) = \left\|Ax \right\|_2 \ge 0\) 。基于此,其特征值都非负。因为 \(x^*A^*Ax = \lambda x^*x = \lambda \left\|x\right\|_2 \ge 0\) 且 \(\left\|x\right\|_2 \ge 0\) 。
Hermitian 厄米矩阵:对称矩阵在复数域的对应,具有共轭对称不变的性质,即 \(A^* = A\) 。
特别地,如果 \(A\) 是一个 Hermitian 矩阵,则有
\[\begin{aligned}
\left\|A\right\|_2 &= \sqrt{\lambda_{max}(A^*A)}= \sqrt{\lambda_{max}(A^2)}\\
&= \sqrt{\lambda^2_{max}(A)} = \lambda_{max}(A)
\end{aligned}\]
矩阵平方的特征值等于矩阵特征值的平方,这是因为 \(A^2 x = A(\lambda x) = \lambda Ax = \lambda^2 x\) 。
我们举一个稍微具体些的例子:有一个 3×4 的矩阵
\[A = \begin{bmatrix}a_{11} & a_{12} & a_{13} & a_{14}\\
a_{21} & a_{22} & a_{23} & a_{24}\\
a_{31} & a_{32} & a_{33} & a_{34}\end{bmatrix} = \begin{bmatrix}(\alpha_1)_{3\times 1} & \alpha_2 & \alpha_3 & \alpha_4\end{bmatrix} = \begin{bmatrix}(\beta_1)_{1\times 4}\\ \beta_2\\ \beta_3\\ \beta_4\end{bmatrix}\]
以及一个不为 0 的向量 \(x = \begin{bmatrix}x_1 & x_2 & x_3 & x_4\end{bmatrix}^\top\) 。
\[\begin{aligned}
\frac{\left\|Ax\right\|_1}{\left\|x\right\|_1} &= \frac{x_1\left\|\alpha_1\right\|_1 + x_2\left\|\alpha_2\right\|_1 +x_3\left\|\alpha_3\right\|_1 +x_4\left\|\alpha_4\right\|_1}{x_1+x_2+x_3+x_4}\\
& \le \frac{(x_1+x_2+x_3+x_4)\max_{1\le j \le n}\left\|\alpha_j\right\|_1}{x_1+x_2+x_3+x_4}\\
&= \max_{1\le j \le n}\left\|\alpha_j\right\|_1\\
\frac{\left\|Ax\right\|_2}{\left\|x\right\|_2} &= \sqrt{\frac{x^* A^* Ax}{x^* x}} \ \ (A^* A 可以相似对角化为 Q^\top diag\{\lambda_1,\lambda_2,\cdots, \lambda_n\}Q)\\
&= \sqrt{\frac{(Qx)^* diag\{\lambda_1,\lambda_2,\cdots, \lambda_n\} Qx}{x^* x}}\\
&= \sqrt{\frac{(Qx)^* diag\{\lambda_1,\lambda_2,\cdots, \lambda_n\} Qx}{(Qx)^* Qx}} \ \ (记 Qx = y)\\
&= \sqrt{\frac{y^* diag\{\lambda_1,\lambda_2,\cdots, \lambda_n\} y}{y^* y}} = \sqrt{\frac{\sum_{i=1}^n\lambda_i \left|y_i\right|^2}{\sum_{i = 1}^n \left|y_i\right|^2}}\\
& \le \sqrt{\frac{\lambda_{max}\sum_{i=1}^n\left|y_i\right|^2}{\sum_{i = 1}^n \left|y_i\right|^2}} = \sqrt{\lambda_{max}(A^*A)}\\
\frac{\left\|Ax\right\|_\infty}{\left\|x\right\|_\infty} &= \frac{\left\|A\left\|x\right\|_{\infty} y\right\|_{\infty}}{\left\|x\right\|_{\infty}} = \left\|Ay\right\|_{\infty} \ \ (y = \frac{x}{\left\|x\right\|_{\infty}})\\
&= \max_{1\le i \le m}\left|\beta_iy\right| = \max_{1\le i \le m} \left|\sum_{j=1}^na_{ij}y_j\right|\le\max_{1\le i \le m} \sum_{j=1}^n\left|a_{ij}\right|\left|y_j\right|\ \ (\left|y_j\right|<1)\\
&\le \max_{1\le i \le m} \sum_{j=1}^n\left|a_{ij}\right|
\end{aligned}\]
“增益”视角
把矩阵 \(A \in \mathbb{C}^{m\times n}\) 视为从向量空间 \(\mathbb{C}^n\) 到向量空间 \(\mathbb{C}^m\) 的映射。从系统角度看,矩阵范数可以理解为输出/输入的放大增益。
Frobenius 范数
对于矩阵 \(A \in \mathbb{C}^{m\times n}\) ,Frobenius 范数定义为
\[\left\|A\right\|_F = \sqrt{\mathrm{Trace}(A^*A)} = \sqrt{\sum_{i=1}^m\sum_{j=1}^{n}(a_{ij})^2}\]