线性代数深度指南

文档概述

线性代数是现代数学与机器学习的基石。本指南从向量空间出发，系统涵盖矩阵运算与分解、特征值理论、最小二乘法以及矩阵微积分等核心内容，并深入探讨其在机器学习中的广泛应用。

关键词

序号	关键词	英文	核心概念
1	向量空间	Vector Space	$(R^{n}, +, \cdot)$
2	基	Basis	$span {v_{1}, \dots, v_{n}} = V$
3	矩阵分解	Matrix Decomposition	$A = U Σ V^{T}$
4	特征值	Eigenvalue	$A v = λ v$
5	特征向量	Eigenvector	满足 $A v = λ v$ 的非零向量
6	正交性	Orthogonality	$⟨ u, v ⟩ = 0$
7	最小二乘	Least Squares	$min ∥ A x - b ∥^{2}$
8	矩阵微积分	Matrix Calculus	$\frac{\partial f ( X )}{\partial X}$
9	SVD	Singular Value Decomposition	$A = U Σ V^{T}$
10	正定矩阵	Positive Definite	$x^{T} A x > 0, \forall x \neq = 0$
11	迹	Trace	$tr (A) = \sum_{i} A_{ii}$
12	行列式	Determinant	$det (A)$

一、向量空间与基

1.1 向量空间的定义

向量空间（或线性空间） $V$ 是定义在域 $F$ （通常为 $R$ 或 $C$ ）上的集合，配备两种运算：

向量加法： $u + v \in V$ 对所有 $u, v \in V$
标量乘法： $c v \in V$ 对所有 $c \in F$ ， $v \in V$

必须满足8条公理：结合律、交换律、零向量存在、加法逆元、标量乘法对向量加法的分配律、标量乘法对标量加法的分配律、标量乘法结合律、标量乘法单位元。

$R^{n}$ 是最常见的向量空间：所有 $n$ 维实向量的集合。

1.2 子空间、基与维数

子空间：向量空间 $V$ 的子集 $W$ 若对加法和标量乘法封闭，则称 $W$ 为 $V$ 的子空间。

张成空间：向量组 ${v_{1}, \dots, v_{k}}$ 的张成空间定义为： $span {v_{1}, \dots, v_{k}} = {c_{1} v_{1} + \dots + c_{k} v_{k} : c_{i} \in F}$

线性无关：若 $c_{1} v_{1} + \dots + c_{k} v_{k} = 0$ 蕴含所有 $c_{i} = 0$ ，则向量组线性无关。

基：线性无关且张成整个空间的向量组。基中向量的个数称为维数 $dim (V)$ 。

标准基： $R^{n}$ 的标准基为 $e_{1} = (1, 0, \dots, 0), e_{2} = (0, 1, \dots, 0), \dots, e_{n} = (0, 0, \dots, 1)$ 。

基变换示例

向量 $x = (3, 1)^{T}$ 在标准基下的坐标即为 $(3, 1)^{T}$ 。但在基 $v_{1} = (1, 1)^{T}, v_{2} = (1, - 1)^{T}$ 下， $x = 2 v_{1} + 1 v_{2}$ ，坐标为 $(2, 1)^{T}$ 。

1.3 内积空间

内积是向量空间上的双线性函数 $⟨ \cdot, \cdot ⟩ : V \times V \to F$ ，满足：

共轭对称性： $⟨ u, v ⟩ = \overline{⟨ v, u ⟩}$
线性性： $⟨ c u + v, w ⟩ = c ⟨ u, w ⟩ + ⟨ v, w ⟩$
正定性： $⟨ v, v ⟩ \geq 0$ ，且等号成立当且仅当 $v = 0$

在 $R^{n}$ 中，标准内积为 $⟨ u, v ⟩ = u^{T} v = \sum_{i} u_{i} v_{i}$ 。

范数由内积导出： $∥ v ∥ = ⟨ v, v ⟩$ 。

二、矩阵运算与分解

2.1 矩阵基本运算

设 $A \in R^{m \times n}$ ， $B \in R^{n \times p}$ ：

乘法： $(A B)_{ij} = \sum_{k = 1}^{n} A_{ik} B_{kj}$ ，结果为 $m \times p$ 矩阵
转置： $(A^{T})_{ij} = A_{ji}$
逆： $A A^{- 1} = A^{- 1} A = I$ （仅当 $A$ 可逆，即 $det (A) \neq = 0$ ）

行列式的性质：

$det (A B) = det (A) det (B)$
$det (A^{T}) = det (A)$
$A$ 可逆当且仅当 $det (A) \neq = 0$

迹： $tr (A) = \sum_{i = 1}^{n} A_{ii}$ ，满足循环性质 $tr (A BC) = tr (BC A) = tr (C A B)$ 。

2.2 LU分解

LU分解将矩阵分解为下三角矩阵 $L$ 和上三角矩阵 $U$ 的乘积：

$A = LU$

其中 $L$ 是单位下三角矩阵（对角线元素为1）， $U$ 是上三角矩阵。

LU分解在求解线性方程组 $A x = b$ 时极为高效：

前向替换： $L y = b$ 求解 $y$
后向替换： $U x = y$ 求解 $x$

带行交换的LU分解（PA = LU）：为保证数值稳定性，实际计算中通常引入置换矩阵 $P$ ：

$P A = LU$

2.3 QR分解

QR分解将矩阵分解为正交矩阵 $Q$ 和上三角矩阵 $R$ ：

$A = QR$

其中 $Q \in R^{m \times n}$ 满足 $Q^{T} Q = I$ （列正交）， $R \in R^{n \times n}$ 为上三角。

QR分解的计算方法：

Gram-Schmidt正交化
Householder变换（数值更稳定）
Givens旋转

2.4 奇异值分解（SVD）

奇异值分解是矩阵最重要的分解形式之一，适用于任意 $m \times n$ 矩阵：

$A = U Σ V^{T}$

其中：

$U \in R^{m \times m}$ 是正交矩阵（ $A$ 的左奇异向量）
$Σ \in R^{m \times n}$ 是对角矩阵，对角线元素为奇异值 $σ_{1} \geq σ_{2} \geq \dots \geq σ_{r} > 0$
$V \in R^{n \times n}$ 是正交矩阵（ $A$ 的右奇异向量）
$r = rank (A)$ 是矩阵的秩

几何意义：SVD将线性变换分解为旋转→缩放→旋转三个步骤。奇异值 $σ_{i}$ 表示在各正交方向上的伸缩因子。

SVD与特征值的关系

$A A^{T} = U Σ^{2} U^{T}$ ，故 $A A^{T}$ 的特征值是 $σ_{i}^{2}$

$A^{T} A = V Σ^{2} V^{T}$ ，故 $A^{T} A$ 的特征值也是 $σ_{i}^{2}$

若 $A$ 对称正定（ $A = Q Λ Q^{T}$ ），则奇异值就是特征值的绝对值

2.5 谱分解（特征分解）

对于可对角化矩阵 $A \in R^{n \times n}$ （有 $n$ 个线性无关特征向量）：

$A = Q Λ Q^{- 1}$

其中 $Q$ 的列是特征向量， $Λ = diag (λ_{1}, \dots, λ_{n})$ 是对角特征值矩阵。

实对称矩阵的特殊情况（谱定理）： $A = Q Λ Q^{T}$

其中 $Q$ 是正交矩阵，特征值均为实数。

三、特征值与特征向量

3.1 定义与基本性质

特征值 $λ$ 和特征向量 $v \neq = 0$ 满足：

$A v = λ v$

特征方程（特征多项式）： $det (A - λ I) = 0$

特征值的基本性质：

$det (A) = \prod_{i = 1}^{n} λ_{i}$ （特征值的乘积）
$tr (A) = \sum_{i = 1}^{n} λ_{i}$ （特征值的和）
$rank (A) = 非零特征值的个数$
$det (e^{A}) = e^{tr (A)}$

3.2 特征向量的几何意义

特征向量 $v$ 满足： $A$ 在 $v$ 方向上的作用只是简单的缩放，缩放因子为特征值 $λ$ 。

若 $λ > 1$ ：向量被拉伸
若 $0 < λ < 1$ ：向量被压缩
若 $λ < 0$ ：向量反向
若 $∣ λ ∣ = 1$ ：向量仅旋转（正交矩阵的情况）

幂迭代：给定矩阵 $A$ ，反复计算 $A^{k} v$ 会收敛到主特征向量（对应最大特征值的特征向量）。

3.3 矩阵的迹与幂

Cayley-Hamilton定理：任意方阵满足其特征多项式： $p (λ) = det (λ I - A) \Rightarrow p (A) = 0$

这意味着 $A^{n}$ 可以表示为 $I, A, A^{2}, \dots, A^{n - 1}$ 的线性组合，这在某些矩阵计算中非常有用。

矩阵指数： $e^{A} = \sum_{k = 0}^{\infty} \frac{A ^{k}}{k !} = I + A + \frac{A ^{2}}{2 !} + \dots$

矩阵指数在微分方程 $d x / d t = A x$ 的求解中起关键作用： $x (t) = e^{A t} x (0)$ 。

四、正交性与最小二乘

4.1 正交与正交矩阵

正交向量： $u, v$ 正交当且仅当 $⟨ u, v ⟩ = 0$ 。

正交矩阵： $Q \in R^{n \times n}$ 满足 $Q^{T} Q = I$ 。

正交矩阵的性质：

$Q^{- 1} = Q^{T}$
$∥ Q x ∥ = ∥ x ∥$ （保范数）
$(Q u)^{T} (Q v) = u^{T} v$ （保内积）
$det (Q) = \pm 1$

4.2 正交投影

向量 $b$ 到子空间 $C (A)$ （ $A$ 的列空间）的正交投影为：

$\hat{b} = A (A^{T} A)^{- 1} A^{T} b$

投影矩阵： $P = A (A^{T} A)^{- 1} A^{T}$ ，满足 $P^{2} = P$ （幂等性）和 $P^{T} = P$ （对称性）。

Gram-Schmidt正交化：将线性无关向量组 ${a_{1}, \dots, a_{n}}$ 转化为正交向量组 ${q_{1}, \dots, q_{n}}$ ：

$q_{k} = a_{k} - \sum_{j = 1}^{k - 1} \frac{q _{j}^{T} a _{k}}{q _{j}^{T} q _{j}} q_{j}$

4.3 最小二乘法

最小二乘问题： $min_{x} ∥ A x - b ∥^{2}$

解满足正规方程（Normal Equations）： $A^{T} A x = A^{T} b$

解为 $\hat{x} = (A^{T} A)^{- 1} A^{T} b$ （当 $A^{T} A$ 可逆时）。

几何意义： $\hat{x}$ 使得 $A \hat{x}$ 是 $b$ 在 $A$ 列空间上的正交投影。

数值稳定的求解方法

直接求解正规方程 $(A^{T} A)^{- 1} A^{T} b$ 数值不稳定（条件数平方）。推荐使用：

QR分解： $A = QR$ ，则 $\hat{x} = R^{- 1} Q^{T} b$

SVD： $\hat{x} = V Σ^{- 1} U^{T} b$ （当 $A$ 病态时最稳定）

4.4 约束最小二乘

正则化最小二乘（岭回归）： $min_{x} ∥ A x - b ∥^{2} + λ ∥ x ∥^{2}$

解为 $\hat{x} = (A^{T} A + λ I)^{- 1} A^{T} b$ 。

正则化的作用：

当 $A^{T} A$ 病态时， $λ I$ 改善条件数
引入偏差换取方差减小（偏差-方差权衡）
当 $λ > 0$ 时，解不会发散

五、矩阵微积分

5.1 矩阵导数的定义

标量对向量求导： $f : R^{n} \to R$

$\frac{\partial f}{\partial x} = \frac{\partial f}{\partial x _{1}} ⋮ \frac{\partial f}{\partial x _{n}}$

向量对向量求导（Jacobian）： $f : R^{n} \to R^{m}$

$\frac{\partial f}{\partial x} = \frac{\partial f _{1}}{\partial x _{1}} ⋮ \frac{\partial f _{1}}{\partial x _{n}} \dots ⋱ \dots \frac{\partial f _{m}}{\partial x _{1}} ⋮ \frac{\partial f _{m}}{\partial x _{n}}$

5.2 常用矩阵求导公式

函数	导数
$a^{T} x$	$a$
$x^{T} A x$ （ $A$ 对称）	$2 A x$
$x^{T} x$	$2 x$
$\	A\mathbf{x} - \mathbf{b}\
$lo g ∥Σ∥$ （ $Σ$ 对称正定）	$2 Σ^{- 1}$
$tr (A X)$	$A^{T}$

5.3 二阶导数与Hessian矩阵

Hessian矩阵：标量函数 $f : R^{n} \to R$ 的二阶导数：

$H = \frac{\partial ^{2} f}{\partial x \partial x ^{T}} = \frac{\partial ^{2} f}{\partial x _{1}^{2}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{1}} \dots ⋱ \dots \frac{\partial ^{2} f}{\partial x _{1} \partial x _{n}} ⋮ \frac{\partial ^{2} f}{\partial x _{n}^{2}}$

Hessian矩阵的性质：

若 $f$ 二阶连续可微，Hessian是对称的
凸函数的Hessian是半正定的
临界点（梯度为零）处的Hessian决定了极值性质

六、线性代数在机器学习中的应用

6.1 主成分分析（PCA）

PCA通过SVD寻找数据方差最大的正交方向（主成分）。

设数据矩阵 $X \in R^{n \times d}$ （ $n$ 个样本， $d$ 维特征），数据中心化为 $\sum_{i} x_{i} = 0$ 。

协方差矩阵： $C = \frac{1}{n - 1} X^{T} X$ 。

PCA步骤：

计算 $C$ 的特征值分解或 $X$ 的SVD： $X = U Σ V^{T}$
选择前 $k$ 个最大特征值对应的特征向量
投影数据到这 $k$ 维子空间

PCA的SVD视角

若 $X = U Σ V^{T}$ ，则 $X^{T} X = V Σ^{2} V^{T}$ 。因此 $V$ 的列（左奇异向量）正是 $X^{T} X$ 的特征向量，即PCA的主成分方向。奇异值 $σ_{i}$ 与特征值的关系为 $λ_{i} = σ_{i}^{2} / (n - 1)$ 。

6.2 线性回归与广义线性模型

线性回归： $y = w^{T} x + ϵ$

最小二乘解： $\hat{w} = (X^{T} X)^{- 1} X^{T} y$

Logistic回归： $P (y = 1∣ x) = σ (w^{T} x) = \frac{1}{1 + e ^{- w^{T} x}}$

通过梯度下降优化，参数更新： $w \leftarrow w - η \cdot \frac{\partial L}{\partial w}$

6.3 奇异值分解的降维应用

截断SVD：保留最大的 $k$ 个奇异值：

$A_{k} = U_{k} Σ_{k} V_{k}^{T}$

$A_{k}$ 是 $A$ 在Frobenius范数意义下的最优 $k$ 秩逼近（Eckart-Young定理）：

$∥ A - A_{k} ∥_{F}^{2} = \sum_{i = k + 1}^{r} σ_{i}^{2}$

这在推荐系统（如矩阵分解）和图像压缩中有重要应用。

6.4 神经网络中的线性代数

深度学习中的核心计算都是矩阵运算：

前向传播： $Z^{(l)} = W^{(l)} A^{(l - 1)} + b^{(l)}$
反向传播：通过链式法则计算梯度，本质是雅可比矩阵的乘积
注意力机制： $Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d _{k}}) V$

GPU的并行计算能力正是源于其对大规模矩阵运算的高效支持。

七、特殊矩阵类与矩阵性质

7.1 对称矩阵与反对称矩阵

对称矩阵满足 $A^{T} = A$ ，在机器学习中极为常见，因为协方差矩阵就是对称的。

对称矩阵的性质：

所有特征值都是实数
特征向量可以选为正交的（谱定理）
$A$ 正定当且仅当所有特征值大于零
对称矩阵的Cholesky分解： $A = L L^{T}$ （ $L$ 为下三角）

反对称矩阵满足 $A^{T} = - A$ 。实反对称矩阵的性质：

对角线元素全为零
特征值是纯虚数或零（成共轭对出现）
$e^{A}$ 是正交矩阵（这与李代数密切相关）

反对称矩阵与旋转

三维空间中的旋转可以表示为 $R = e^{K}$ ，其中 $K$ 是反对称矩阵。这建立了矩阵指数与旋转群之间的联系，是机器人学和计算机图形学的理论基础。

7.2 正交矩阵与酉矩阵

正交矩阵 $Q \in R^{n \times n}$ 满足 $Q^{T} Q = I$ 。

正交矩阵的几何意义：

列向量构成 $R^{n}$ 的标准正交基
保持欧氏范数： $∥ Q x ∥ = ∥ x ∥$
保持内积： $(Q u)^{T} (Q v) = u^{T} v$
行列式 $det (Q) = \pm 1$

酉矩阵 $U \in C^{n \times n}$ 是复数域的正交矩阵，满足 $U^{*} U = I$ （ $U^{*}$ 是共轭转置）。

酉矩阵的性质：

保持复向量的范数
特征值的模为1（位于复平面的单位圆上）
在量子力学中，酉变换对应量子态的幺正演化

Householder矩阵是构造正交矩阵的基本工具： $H = I - 2 \frac{v v ^{T}}{v ^{T} v}$

Householder变换用于将向量归零，在QR分解和特征值计算中广泛应用。

Givens旋转是另一种正交变换，用于逐元素归零。

7.3 正规矩阵与谱定理

正规矩阵满足 $A^{T} A = A A^{T}$ 。

重要的矩阵类都是正规的：

实对称矩阵（ $A^{T} = A$ ）
实反对称矩阵（ $A^{T} = - A$ ）
正交矩阵（ $A^{T} A = I$ ）
复Hermitian矩阵（ $A^{*} = A$ ）
复酉矩阵（ $A^{*} A = I$ ）

谱定理：正规矩阵 $A$ 可以酉对角化： $A = U Λ U^{*}$ 其中 $U$ 是酉矩阵， $Λ = diag (λ_{1}, \dots, λ_{n})$ 。

实对称矩阵的谱分解

实对称矩阵 $A = Q Λ Q^{T}$ ，其中 $Q$ 的列是单位正交特征向量， $Λ$ 是实对角矩阵（特征值）。

这使得函数 $f (A)$ 可以自然定义： $f (A) = Q \cdot diag (f (λ_{1}), \dots, f (λ_{n})) \cdot Q^{T}$

7.4 正定矩阵与半正定矩阵

正定矩阵 $A \in R^{n \times n}$ 满足： $x^{T} A x > 0, \forall x \neq = 0$

半正定矩阵满足 $x^{T} A x \geq 0$ 。

正定矩阵的等价条件：

所有特征值大于零
所有顺序主子式大于零（Sylvester准则）
存在唯一的正定平方根 $A^{1/2}$
$A = B^{T} B$ 对某个可逆矩阵 $B$
$A$ 的Cholesky分解存在且唯一： $A = L L^{T}$

条件数与正定性密切相关： $κ (A) = \frac{λ _{m a x}}{λ _{m i n}}$

条件数越大，线性方程组求解越不稳定。病态矩阵（条件数极大）的数值求解需要正则化技术。

7.5 稀疏矩阵与带状矩阵

稀疏矩阵中大部分元素为零。在大规模科学计算和机器学习中，稀疏结构可以大幅节省存储和计算。

带状矩阵：非零元素集中在主对角线附近的带区域内。

带宽 $p$ ：满足 $A_{ij} = 0$ 当 $∣ i - j ∣ > p$
带状矩阵的LU分解保持带状结构
存储复杂度从 $O (n^{2})$ 降低到 $O (n p)$

三对角矩阵

在微分方程数值解和样条插值中，三对角矩阵频繁出现。通过Thomas算法（带状LU分解的特殊形式），求解复杂度从 $O (n^{3})$ 降低到 $O (n)$ 。

八、矩阵范数与矩阵分析

8.1 向量范数的种类

向量范数 $∥ x ∥$ 衡量向量的大小，必须满足：

正定性： $∥ x ∥ \geq 0$ ，等号成立当且仅当 $x = 0$
齐次性： $∥ c x ∥ = ∣ c ∣∥ x ∥$
三角不等式： $∥ x + y ∥ \leq ∥ x ∥ + ∥ y ∥$

常用向量范数：

$ℓ_{1}$ 范数（曼哈顿范数）： $∥ x ∥_{1} = \sum_{i} ∣ x_{i} ∣$ ，对应Lasso回归中的稀疏诱导
$ℓ_{2}$ 范数（欧几里得范数）： $∥ x ∥_{2} = \sum_{i} x_{i}^{2}$ ，最常用的范数
$ℓ_{\infty}$ 范数（切比雪夫范数）： $∥ x ∥_{\infty} = max_{i} ∣ x_{i} ∣$
$ℓ_{p}$ 范数： $∥ x ∥_{p} = (\sum_{i} ∣ x_{i} ∣^{p})^{1/ p}$

8.2 矩阵范数

矩阵范数必须满足向量范数的三条公理加上次乘性： $∥ A B ∥ \leq ∥ A ∥∥ B ∥$ 。

诱导范数（算子范数）： $∥ A ∥_{p} = sup_{x \neq = 0} \frac{∥ A x ∥ _{p}}{∥ x ∥ _{p}} = sup_{∥ x ∥_{p} = 1} ∥ A x ∥_{p}$

$∥ A ∥_{1}$ = 列绝对值和的最大值（列和范数）
$∥ A ∥_{2}$ = 最大奇异值（谱范数）= $σ_{m a x} (A)$
$∥ A ∥_{\infty}$ = 行绝对值和的最大值（行和范数）

Frobenius范数： $∥ A ∥_{F} = \sum_{i, j} a_{ij}^{2} = tr (A^{T} A)$

Frobenius范数的性质：

不具有诱导性，但满足次乘性
等价于向量化后的 $ℓ_{2}$ 范数
与SVD关系： $∥ A ∥_{F}^{2} = \sum_{i = 1}^{r} σ_{i}^{2}$

8.3 谱半径与矩阵幂

谱半径 $ρ (A) = max_{i} ∣ λ_{i} ∣$ 是特征值模的最大值。

谱半径的重要性质：

$ρ (A) \leq ∥ A ∥$ （任何矩阵范数）
若 $A$ 对称，则 $ρ (A) = ∥ A ∥_{2}$
$lim_{k \to \infty} A^{k} = 0$ 当且仅当 $ρ (A) < 1$

矩阵幂的行为：

若 $∣ λ_{i} ∣ < 1$ 对所有 $i$ ，则 $A^{k} \to 0$
若最大特征值的模大于1，则 $A^{k}$ 的范数发散
幂迭代法 $v_{k + 1} = A v_{k} /∥ A v_{k} ∥$ 收敛到主特征向量

8.4 矩阵扰动分析

设 $\tilde{A} = A + E$ 是对 $A$ 的扰动，相对扰动界分析如下。

条件数 $k (A) = ∥ A ∥∥ A^{- 1} ∥$ 度量解对扰动的敏感度： $\frac{∥ x - x ~ ∥}{∥ x ∥} \leq k (A) \frac{∥ b - b ~ ∥}{∥ b ∥}$

对于线性方程组 $A x = b$ ，若 $A$ 病态（条件数大），小的扰动会导致解的巨大变化。

扰动下的特征值稳定性：

正规矩阵的特征值对扰动相对稳定
非正规矩阵的特征值可能剧烈变化（即使矩阵元素只有微小扰动）

非正规矩阵的病态问题

一个经典的例子是 Jordan 块： $J = (λ 0 1 λ)$ 即使 $ϵ$ 极小， $J + ϵ E$ 的特征值可能偏离 $λ$ 。这在数值分析中称为”特征值扰动病态”。

九、特征值计算的数值方法

9.1 幂迭代法与反幂迭代法

幂迭代法是最简单的特征值算法：

给定矩阵 A 和初始向量 b₀
重复：
    v = Abₖ
    bₖ₊₁ = v / ||v||
    λₖ = bₖᵀ A bₖ
直到收敛

收敛性分析：

若 $∣ λ_{1} ∣ > ∣ λ_{2} ∣ \geq \dots$ ，则 $b_{k}$ 收敛到主特征向量
收敛速度由 $∣ λ_{2} / λ_{1} ∣$ 决定
若特征值接近，需要加速技术（如Aitken外推）

反幂迭代法用于计算特定特征向量：

给定接近λ的估计μ
重复：
    解 (A - μI)z = bₖ
    bₖ₊₁ = z / ||z||
    λₖ = bₖᵀ A bₖ

反幂迭代法收敛极快（局部二次收敛），常用于已知近似特征值后的精化。

9.2 QR算法

QR算法是计算所有特征值的标准方法。

基本QR迭代：

A₀ = A
重复 k = 0, 1, 2, ...:
    Aₖ = Qₖ Rₖ  (QR分解)
    Aₖ₊₁ = Rₖ Qₖ

关键性质：

$A_{k}$ 与 $A$ 正交相似： $A_{k} = Q_{0} Q_{1} \dots Q_{k - 1} A Q_{k - 1} \dots Q_{1} Q_{0}$
若 $A$ 对称，则 $A_{k}$ 保持对称且渐近趋向对角矩阵
收敛到Schur形式： $T = U^{*} A U$ （上三角）

位移策略：引入位移 $μ_{k}$ 加速收敛 $A_{k} - μ_{k} I = Q_{k} R_{k}$ $A_{k + 1} = R_{k} Q_{k} + μ_{k} I$

9.3 对称特征值问题的特殊方法

对于对称矩阵，可以使用更高效的专用方法。

Jacobi方法：

通过一系列平面旋转逐步将非对角元素归零
收敛到对角矩阵
适合稠密小矩阵

二分法：

利用 Sturm 序列性质定位特征值
适合带状矩阵
计算单个特征值的效率高

分而治之算法（Divide and Conquer）：

将问题递归分解
适合并行计算
现代 LAPACK 的主要方法

9.4 Rayleigh商迭代

Rayleigh商迭代结合了幂迭代和特征值的Rayleigh商估计：

给定初始向量 q₀（||q₀|| = 1）
重复：
    μₖ = qₖᵀ A qₖ  (Rayleigh商)
    解 (A - μₖ I)qₖ₊₁ = qₖ
    qₖ₊₁ = qₖ₊₁ / ||qₖ₊₁||

收敛性质：

收敛速度是立方的（比普通幂迭代快得多）
若初始向量足够好，迭代几乎立即收敛
是计算对称矩阵主特征向量的最有效方法之一

十、奇异值分解的深入应用

10.1 低秩逼近与Eckart-Young定理

Eckart-Young定理（1936）给出了矩阵最优低秩逼近的精确刻画：

设 $A = U Σ V^{T}$ 是 $m \times n$ 矩阵的SVD， $Σ = diag (σ_{1}, \dots, σ_{r})$ 。定义截断SVD： $A_{k} = U_{k} Σ_{k} V_{k}^{T}$ 其中 $U_{k}$ 、 $V_{k}$ 保留前 $k$ 列， $Σ_{k}$ 保留前 $k$ 个奇异值。

则 $A_{k}$ 是 $A$ 在Frobenius范数和谱范数意义下的最优 $k$ 秩逼近：

$∥ A - A_{k} ∥_{F}^{2} = \sum_{i = k + 1}^{r} σ_{i}^{2} = min_{rank (B) \leq k} ∥ A - B ∥_{F}^{2}$

$∥ A - A_{k} ∥_{2} = σ_{k + 1} = min_{rank (B) \leq k} ∥ A - B ∥_{2}$

图像压缩中的应用

一张 $512 \times 512$ 灰度图像是 262,144 个像素。若保留前 $k$ 个奇异值：

存储量：从 $51 2^{2}$ 减少到 $k (512 + 512 + 1) \approx 1024 k$

当 $k = 50$ 时，压缩比约为 52:1

视觉质量通常在 $k > 20$ 时保持良好

10.2 伪逆与最小范数解

Moore-Penrose伪逆 $A^{+} \in R^{n \times m}$ 是逆矩阵在非方阵情形下的推广：

若 $A = U Σ V^{T}$ 是SVD，则： $A^{+} = V Σ^{+} U^{T}$ 其中 $Σ^{+}$ 将非零奇异值取倒数并转置。

伪逆的性质：

$A A^{+} A = A$
$A^{+} A A^{+} = A^{+}$
$(A A^{+})^{T} = A A^{+}$ （幂等对称）
$(A^{+} A)^{T} = A^{+} A$ （幂等对称）

最小范数最小二乘解： $\hat{x} = A^{+} b$

这是所有最小二乘解中欧几里得范数最小的解。

10.3 主成分分析与因子分析

**主成分分析（PCA）**与SVD的关系：

设数据矩阵 $X \in R^{n \times d}$ （ $n$ 个样本， $d$ 维特征），数据中心化。

PCA通过SVD实现：

计算 $X$ 的SVD： $X = U Σ V^{T}$
主成分是 $V$ 的列（右奇异向量）
第 $i$ 个主成分的方差贡献为 $σ_{i}^{2} / (n - 1)$
投影后的数据为 $Z = U Σ = X V$

因子分析模型： $X = μ + L F^{T} + ϵ$

其中：

$L \in R^{d \times k}$ 是因子载荷矩阵
$F \in R^{k \times n}$ 是公共因子
$ϵ$ 是特异误差

因子分析与PCA的区别：

PCA是描述性方法，FA是生成模型
FA允许噪声在各维度不同
FA的参数估计需要迭代（如EM算法）

10.4 矩阵补全与推荐系统

矩阵补全问题： $A \in R^{m \times n} 已知部分元素，缺失部分需补全$

在推荐系统中， $A$ 是用户-物品评分矩阵，大部分位置未知。

核范数最小化： $min ∥ X ∥_{*} s.t. X_{ij} = A_{ij}, (i, j) \in Ω$

其中 $∥ X ∥_{*} = \sum_{i} σ_{i} (X)$ 是矩阵的核范数（奇异值之和）。

理论上，若缺失是随机的且矩阵满足低秩+不相干条件，可以精确恢复。

低秩矩阵恢复的样本复杂度

若 $n \times n$ 矩阵秩为 $r$ ，需要大约 $O (μ r n lo g n)$ 个观测值即可高概率精确恢复，其中 $μ$ 是不相干参数。这为Netflix问题和矩阵填充提供了理论保证。

十一、核方法与特征空间

11.1 核函数的数学基础

核函数 $k (x, y)$ 是满足Mercer条件的对称函数： $k (x, y) = ⟨ ϕ (x), ϕ (y)⟩$

其中 $ϕ : X \to H$ 是到**再生核希尔伯特空间（RKHS）**的特征映射。

Mercer定理：若 $k$ 是连续、对称且正定的核函数，则存在特征映射 $ϕ_{i}$ 和特征值 $λ_{i} \geq 0$ 使得： $k (x, y) = \sum_{i} λ_{i} ϕ_{i} (x) ϕ_{i} (y)$

常用的核函数：

线性核： $k (x, y) = x^{T} y$
多项式核： $k (x, y) = (γ x^{T} y + r)^{d}$
高斯核（RBF）： $k (x, y) = exp (- γ ∥ x - y ∥^{2})$
拉普拉斯核： $k (x, y) = exp (- α ∥ x - y ∥)$

11.2 核主成分分析（Kernel PCA）

核PCA通过特征映射 $ϕ$ 将数据映射到高维特征空间，然后执行PCA：

计算核矩阵 $K_{ij} = k (x_{i}, x_{j})$
中心化核矩阵： $\tilde{K} = K - 1 K / n - K 1 / n + 1 K 1 / n^{2}$
对 $\tilde{K}$ 进行特征分解
投影数据： $z_{i} = \sum_{j = 1}^{n} \tilde{K}_{ij} v_{j}$

核PCA可以捕获数据中的非线性结构，是PCA的推广。

瑞士卷数据集

在二维平面上呈螺旋结构的数据，线性PCA只能提取全局主方向。核PCA（尤其是高斯核）可以展开瑞士卷，提取流形内在维度。

11.3 支撑向量机与核技巧

**支撑向量机（SVM）**的优化问题： $min_{w, b} \frac{1}{2} ∥ w ∥^{2} s.t. y_{i} (w^{T} ϕ (x_{i}) + b) \geq 1$

对偶问题： $max_{α} \sum_{i} α_{i} - \frac{1}{2} \sum_{i, j} α_{i} α_{j} y_{i} y_{j} k (x_{i}, x_{j})$

核技巧的核心洞察：优化问题只涉及内积 $⟨ ϕ (x_{i}), ϕ (x_{j})⟩$ ，可以直接用核函数替换。

这使得SVM可以处理：

非线性分类边界
文本分类（高维稀疏特征）
图像分类（局部特征）

十二、张量基础

12.1 张量的定义与表示

张量是多维数组的泛化：

0阶张量 = 标量
1阶张量 = 向量
2阶张量 = 矩阵
$p$ 阶张量 = $p$ 维数组

设 $X \in R^{n_{1} \times n_{2} \times \dots \times n_{p}}$ 是 $p$ 阶张量。

纤维（Fiber）：张量固定其他维度后得到的一维切片。

切片（Slice）：张量固定一个维度后得到的二维矩阵。

12.2 张量分解

CP分解（CANDECOMP/PARAFAC）： $X \approx \sum_{r = 1}^{R} a_{r} \circ b_{r} \circ c_{r}$

其中 $a_{r} \circ b_{r} \circ c_{r}$ 是外积， $R$ 是分解的秩。

Tucker分解： $X \approx G \times_{1} A \times_{2} B \times_{3} C$

其中 $G$ 是核心张量， $A, B, C$ 是因子矩阵。

张量秩与矩阵秩的不同：

张量秩定义为最小CP分解的项数
张量秩的计算是NP-hard问题
某些张量没有有限秩表示（亏秩问题）

12.3 张量在机器学习中的应用

高阶矩分析： $E [x_{i_{1}} x_{i_{2}} \dots x_{i_{k}}]$

张量可以自然表示高阶统计量。

神经网络中的张量：

权重矩阵是2阶张量
卷积层的卷积核是4阶张量（输出通道 × 输入通道 × 高度 × 宽度）
注意力机制的键、查询、值是3阶张量

张量回归： $Y = ⟨ W, X ⟩ + ϵ$

其中 $W$ 是回归系数张量， $⟨ \cdot, \cdot ⟩$ 是内积。

十三、线性代数在深度学习中的前沿应用

13.1 Transformer架构的线性代数基础

自注意力机制： $Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d _{k}}) V$

矩阵分解视角：

$Q K^{T}$ 计算 $n \times d_{k}$ 与 $d_{k} \times n$ 的乘积（ $O (n^{2} d_{k})$ ）
softmax对每行归一化
最后乘以 $V \in R^{n \times d_{v}}$ 得到输出

Flash Attention通过分块计算和矩阵乘法的结合，将复杂度从 $O (n^{2})$ 降低到 $O (n)$ 内存。

13.2 参数效率与低秩适配

LoRA（Low-Rank Adaptation）： $Δ W = A B, A \in R^{d \times r}, B \in R^{r \times k}$

通过低秩分解 $r ≪ min (d, k)$ 大幅减少可训练参数数量，同时保持模型性能。

理论基础：

预训练模型的权重变化 $Δ W$ 通常具有低秩结构
内在维度假说：任务相关的参数更新只占据少数主方向

13.3 谱范数与权重归一化

权重归一化： $y = g \cdot \frac{W x}{∥ W x ∥}$

通过将权重向量分离为方向和模长，加速梯度下降收敛。

谱归一化： $∥ W ∥_{s p ec} = σ_{m a x} (W)$

通过约束判别器权重的谱范数，稳定GAN训练（Wasserstein距离的理论保证）。

十四、线性代数与其他数学领域的联系

14.1 线性代数与图论

图的邻接矩阵 $A \in R^{n \times n}$ ： $A_{ij} = {10 若边 (i, j) 存在否则$

拉普拉斯矩阵 $L = D - A$ （ $D$ 是度矩阵）：

$L$ 是半正定的，特征值 $λ_{1} = 0$ 对应常数特征向量
谱聚类基于 $L$ 的小特征值进行社区检测
Cheeger不等式连接图的连通性和谱性质

图神经网络的消息传递： $h_{v}^{(k + 1)} = σ (W^{(k)} \sum_{u \in N (v)} \frac{h _{u}^{(k)}}{∣ N ( v ) ∣})$

矩阵形式： $H^{(k + 1)} = σ (D^{- 1} A H^{(k)} W^{(k)})$

14.2 线性代数与数值分析

迭代法的矩阵视角： $A x = b \Rightarrow x^{(k + 1)} = M^{- 1} (N x^{(k)} + b)$

Jacobi迭代： $M = D$ （对角部分）
Gauss-Seidel迭代： $M = D + L$ （下三角部分）
SOR迭代： $M = \frac{1}{ω} (D - ω L)$

收敛性由谱半径 $ρ (M^{- 1} N)$ 决定。

14.3 线性代数与最优化

共轭梯度法： $p_{k + 1} = - \nabla f (x_{k + 1}) + β_{k} p_{k}$

对于正定系统 $A x = b$ ，共轭梯度法在 $n$ 步内收敛到精确解。

KKT条件与矩阵结构： $(A B B^{T} 0) (x λ) = (b c)$

约束优化问题的KKT系统具有鞍点结构。

14.4 线性代数与量子计算

量子态的向量表示： $∣ ψ ⟩ = (α_{0} α_{1}), ∣ α_{0} ∣^{2} + ∣ α_{1} ∣^{2} = 1$

量子门是酉矩阵：

Hadamard门： $H = \frac{1}{2} (11 1 - 1)$
Pauli门： $X = (0110)$ ， $Z = (10 0 - 1)$
CNOT门：控制-非门，是重要的两比特门

量子计算的线性代数本质使得经典计算机可以模拟量子系统（虽然可能指数级慢）。

十五、现代线性代数软件与计算实践

15.1 BLAS与LAPACK层级

BLAS（Basic Linear Algebra Subprograms）提供底层矩阵运算：

Level 1：向量-向量操作（ $O (n)$ ）
Level 2：矩阵-向量操作（ $O (n^{2})$ ）
Level 3：矩阵-矩阵操作（ $O (n^{3})$ ）

LAPACK（Linear Algebra PACKage）建立在BLAS之上，提供：

线性方程组求解
特征值与奇异值分解
线性最小二乘问题
矩阵分解（LU、QR、Cholesky、SVD等）

15.2 GPU加速与cuBLAS

cuBLAS是NVIDIA的GPU加速BLAS实现：

利用GPU的数千个核心进行并行计算
矩阵-矩阵乘法（GEMM）可达数百TFLOPS
深度学习框架（如PyTorch、TensorFlow）底层依赖cuBLAS

混合精度计算：

使用FP16矩阵乘法 + FP32累加
张量核（Tensor Core）支持矩阵-矩阵-矩阵乘法（HMMA）
显著加速同时保持数值精度

15.3 稀疏矩阵计算库

SuiteSparse：

提供稀疏LU、QR、Cholesky分解
支持多种稀疏矩阵格式（CSR、CSC、COO）

Eigen：

header-only的C++模板库
自动向量化与并行化
广泛用于机器人学和计算机视觉

SciPy稀疏模块：

Python生态系统中的稀疏矩阵工具
提供迭代求解器和稀疏分解

15.4 分布式线性代数

ScaLAPACK：

面向分布式内存系统的LAPACK
矩阵块划分到不同处理器
适合超大规模问题

SLATE（Software for Linear Algebra Targeting Exascale）：

下一代分布式线性代数库
针对百亿亿次计算设计
支持异构计算架构

十六、流形上的线性代数

16.1 Grassmann流形

Grassmann流形 $Gr (k, n)$ 是 $R^{n}$ 中所有 $k$ 维线性子空间构成的流形。

几何解释：

$Gr (1, n) = R P^{n - 1}$ （射影空间）
$Gr (n - 1, n) = R P^{n - 1}$ （正交补）
$Gr (k, n)$ 的维度为 $k (n - k)$

参数化：

通过基矩阵 $X \in R^{n \times k}$ （列线性无关），等价类： $X \sim XQ, Q \in G L (k)$

使用正交基 $Q^{T} Q = I$ 消除歧义： $Gr (k, n) = {X \in R^{n \times k} : X^{T} X = I} / O (k)$

在机器学习中的应用：

子空间聚类
动作识别
字典学习

16.2 Stiefel流形

Stiefel流形 $St (k, n)$ 是 $R^{n}$ 中所有正交 $k$ -标架的集合： $St (k, n) = {X \in R^{n \times k} : X^{T} X = I_{k}}$

维度： $nk - k (k + 1) /2$

与Grassmann流形的关系： $St (k, n) \to Gr (k, n), X \mapsto col (X)$

这使得Stiefel流形是Grassmann流形的纤维丛。

优化上的应用：

约束优化问题 $min_{X \in St (k, n)} f (X)$ 。

黎曼梯度下降： $X_{t + 1} = X_{t} - η_{t} Retract (\nabla f (X_{t}))$

其中 retraction 将切向量映射回流形。

16.3 对称正定矩阵流形

对称正定矩阵流形 $S_{++}^{n}$ ： $S_{++}^{n} = {S \in R^{n \times n} : S = S^{T}, S ≻ 0}$

黎曼度量（仿射不变度量）： $g_{X} (ξ, η) = tr (X^{- 1} ξ X^{- 1} η)$

黎曼梯度： $grad f (X) = X (\frac{\partial f}{\partial X}) X$

测地线： $γ (t) = X^{1/2} exp (t X^{- 1/2} V X^{- 1/2}) X^{1/2}$

其中 $V$ 是切向量。

应用：

协方差矩阵插值（几何平均）
扩散张量成像（DTI）
雷达信号处理

16.4 流形优化算法

信赖域方法（Riemannian Trust Region）：

$m_{k} (S) = f (X_{k}) + ⟨ grad f (X_{k}), S ⟩ + \frac{1}{2} ⟨ H_{k} (S), S ⟩$

约束 $S$ 在切空间， $∥ S ∥ \leq Δ_{k}$ 。

共轭梯度法在流形上： $S_{k + 1} = - grad f (X_{k + 1}) + β_{k} T (S_{k}, X_{k + 1})$

其中 $T$ 是向量传输。

Barzilai-Borwein梯度下降：

两步版本： $d_{k} = - grad f (X_{k})$ $α_{k} = \frac{⟨ s _{k - 1} , s _{k - 1} ⟩}{⟨ s _{k - 1} , y _{k - 1} ⟩}$ $X_{k + 1} = X_{k} + α_{k} d_{k}$

十七、矩阵方程与 Sylvester 方程

17.1 Sylvester 方程

Sylvester方程： $A X + XB = C$

其中 $A \in R^{m \times m}$ ， $B \in R^{n \times n}$ ， $C \in R^{m \times n}$ ， $X \in R^{m \times n}$ 是未知矩阵。

可解性条件：若 $A$ 和 $- B$ 没有公共特征值，方程有唯一解。

Kronecker积形式： $(I_{n} \otimes A + B^{T} \otimes I_{m}) vec (X) = vec (C)$

其中 $\otimes$ 是Kronecker积， $vec$ 是向量化算子。

17.2 Lyapunov 方程

连续时间 Lyapunov方程： $A X + X A^{T} + Q = 0$

离散时间 Lyapunov方程： $X - A X A^{T} = Q$

在控制系统和信号处理中极为重要。

Bartels-Stewart算法：

计算 $A$ 和 $A^{T}$ 的Schur分解
将Lyapunov方程转化为三角形式
使用后向替换求解

复杂度 $O (n^{3})$ 。

17.3 Riccati方程

代数Riccati方程： $A^{T} X + X A - XB R^{- 1} B^{T} X + Q = 0$

连续时间版本。

代数Riccati方程： $X = A X A^{T} + Q - A X C^{T} (R + CX C^{T})^{- 1} CX A^{T}$

离散时间版本。

解的性质：

Riccati方程的解 $X$ 是对称矩阵。若 $(A, B)$ 可稳且 $(C, A)$ 可检，则存在唯一镇定解（半正定）。

在最优控制中的应用：

最优状态反馈： $K = R^{- 1} B^{T} X$ 最优代价： $J = x_{0}^{T} X x_{0}$

17.4 张量方程初步

张量方程是矩阵方程的高阶推广。

CP分解形式的张量： $X = \sum_{r = 1}^{R} a_{r} \circ b_{r} \circ c_{r}$

Tucker分解： $X = G \times_{1} A \times_{2} B \times_{3} C$

交替最小二乘（ALS）：固定其他因子，交替优化每个因子。

十八、随机矩阵进阶理论

18.1 Wigner矩阵的深度性质

Wigner矩阵 $W_{n}$ 是对称随机矩阵： $W_{n} = \frac{1}{n} M_{n}$

其中 $M_{n}$ 的上三角元素独立同分布，均值为0，方差为1。

全局谱行为：

半圆定律的精确形式： $\frac{1}{n} \sum_{i = 1}^{n} δ_{λ_{i}} (x) d \frac{1}{2 π} 4 - x^{2} 1_{∣ x ∣ \leq 2} (x)$

局部 semicircle 定律：

在微观尺度下，需要去除平均到个体特征值。

去聚类（Delocalization）： $∥ v_{i} ∥_{\infty} \leq C \frac{l o g n}{n} with high probability$

所有特征向量近似均匀分布。

18.2 Marchenko-Pastur 定律详解

样本协方差矩阵： $S_{n} = \frac{1}{n} X X^{T}, X \in R^{p \times n}$

当 $p, n \to \infty$ ， $p / n \to γ$ 。

Marchenko-Pastur分布：

若总体协方差 $Σ = I$ ： $ρ_{γ} (x) = \frac{1}{2 π x γ} (b - x) (x - a) + (1 - \frac{1}{γ})^{+} δ_{0}$

其中： $a = (1 - γ)^{2}, b = (1 + γ)^{2}$

尖峰模型：

当总体协方差有少数特征值大于1时，对应MP谱中出现离群特征值。

金融协方差矩阵的应用

实际市场协方差矩阵的特征值分布：

大多数特征值遵循MP定律

少数”信号”特征值在支持外部

尖峰对应市场的共同运动模式

18.3 随机矩阵的极值理论

最大特征值的极限： $λ_{m a x} (W_{n}) a . s . 2$

** Tracy-Widom 分布**：

标准化最大特征值： $\frac{λ _{m a x} ( W _{n} ) - 2}{n ^{- 2/3}} d T W_{1}$

$T W_{1}$ 是Tracy-Widom分布（精确形式复杂）。

应用：

假设检验：是否存在信号
阈值选择：PCA主成分个数
高维统计推断

18.4 Free概率论

自由概率论是经典概率论在矩阵/算子代数中的推广。

自由加法：

经典：独立随机变量 $X, Y$ 的和
自由：独立随机矩阵 $A, B$ 的和

R-变换（类似于累积量生成函数）： $κ_{n} (A + B) = κ_{n} (A) + κ_{n} (B)$

S-变换（用于乘法）： $S_{A B} (z) = S_{A} (z) S_{B} (z)$

在随机矩阵中的应用：

若 $A_{n}, B_{n}$ 是Wigner矩阵且独立，则 $A_{n} + B_{n}$ 的谱分布是自由卷积。

十九、约束优化与KKT理论

19.1 约束优化的分类

约束优化问题： $min_{x \in R^{n}} f (x) s.t. {h_{i} (x) = 0, g_{j} (x) \leq 0, i = 1, \dots, m j = 1, \dots, p$

可行域： $F = {x : h_{i} (x) = 0, g_{j} (x) \leq 0}$

约束 qualifications：

线性约束 qualifications（LICQ）
广义LICQ
Mangasarian-Fromovitz qualifications（MFCQ）

19.2 KKT条件

KKT条件是一阶最优性的必要条件（适当正则条件下也是充分条件）：

存在拉格朗日乘子 $λ_{i}$ （等式）和 $μ_{j} \geq 0$ （不等式）使得： $\nabla f (x^{*}) + \sum_{i = 1}^{m} λ_{i} \nabla h_{i} (x^{*}) + \sum_{j = 1}^{p} μ_{j} \nabla g_{j} (x^{*}) = 0$ $h_{i} (x^{*}) = 0, i = 1, \dots, m$ $g_{j} (x^{*}) \leq 0, j = 1, \dots, p$ $μ_{j} g_{j} (x^{*}) = 0, j = 1, \dots, p$

互补松弛条件 $μ_{j} g_{j} (x^{*}) = 0$ 表明：

若 $g_{j} (x^{*}) < 0$ （严格不等式），则 $μ_{j} = 0$ （非活跃约束）
若 $g_{j} (x^{*}) = 0$ （活跃约束），则 $μ_{j} \geq 0$

19.3 对偶理论

拉格朗日对偶函数： $L (x, λ, μ) = f (x) + \sum_{i} λ_{i} h_{i} (x) + \sum_{j} μ_{j} g_{j} (x)$

对偶问题： $max_{λ, μ \geq 0} in f_{x} L (x, λ, μ)$

弱对偶性： $d^{*} \leq p^{*}$

强对偶性：若满足约束 qualifications， $d^{*} = p^{*}$ 。

Slater条件：存在严格可行点时，强对偶成立。

19.4 内点法

内点法是求解约束优化的重要方法。

障碍函数法： $min f (x) s.t. g_{j} (x) < 0$

通过障碍函数近似： $min f (x) + t \sum_{j} - lo g (- g_{j} (x))$

当 $t \to 0$ 时，解趋近原问题的解。

路径追踪算法：

追踪中心路径 $x (t)$
使用牛顿法求解障碍问题
复杂度 $O (n^{3} L)$ （ $L$ 是位数）

二十、矩阵完成与低秩恢复

20.1 矩阵补全问题

矩阵补全（Matrix Completion）：已知矩阵 $M$ 的部分元素，恢复缺失元素。

$min \rank (X) s.t. X_{ij} = M_{ij}, (i, j) \in Ω$

NP-hard问题：秩最小化是组合优化。

20.2 核范数松弛

核范数松弛： $min ∥ X ∥_{*} s.t. X_{ij} = M_{ij}, (i, j) \in Ω$

其中 $∥ X ∥_{*} = \sum_{i} σ_{i} (X)$ 是奇异值之和。

恢复条件：

若：

矩阵 $M$ 秩为 $r$
采样是均匀随机的
样本复杂度 $m \geq C μ^{2} r n lo g n$

则高概率精确恢复。

20.3 不一致条件

不相干条件（Incoherence）： $max_{i} \frac{∣ U _{ij} ∣}{∥ U _{i \cdot} ∥ _{F}} \leq \frac{μ}{d}$

确保矩阵不在任何坐标方向上稀疏。

20.4 交替方向法

ADMM（Alternating Direction Method of Multipliers）：

$L_{ρ} (X, Z, Y) = ∥ Z ∥_{*} + \frac{ρ}{2} ∥ X - Z + Y / ρ ∥_{F}^{2}$

交替更新： $X^{k + 1} = ar g min_{X} L_{ρ} (X, Z^{k}, Y^{k})$ $Z^{k + 1} = S_{1/ ρ} (X^{k + 1} + Y^{k} / ρ)$ $Y^{k + 1} = Y^{k} + ρ (X^{k + 1} - Z^{k + 1})$

其中 $S_{τ}$ 是奇异值软阈值算子。

二十一、矩阵扰动理论与敏感性分析

21.1 特征值的扰动理论

Bauer-Fike定理：

若 $A$ 可对角化， $A \in C^{n \times n}$ ， $E$ 是扰动矩阵： $∣ λ_{i} (A + E) - λ_{i} (A) ∣ \leq ∥ V^{- 1} E V ∥_{p}$

其中 $V$ 是特征向量矩阵， $p$ 是矩阵范数。

Gershgorin圆盘定理：

每个特征值位于至少一个Gershgorin圆盘中： $D_{i} = {z : ∣ z - a_{ii} ∣ \leq \sum_{j \neq = i} ∣ a_{ij} ∣}$

扰动界限的精细化：

Weyl定理给出了特征值扰动的精确界限： $\sum_{i = 1}^{n} ∣ λ_{i} (A + E) - λ_{i} (A) ∣^{2} \leq ∥ E ∥_{F}^{2}$

21.2 矩阵函数与条件数

矩阵函数 $f (A)$ 通过特征值定义为： $f (A) = V diag (f (λ_{i})) V^{- 1}$

矩阵条件数： $κ (A) = ∥ A ∥ \cdot ∥ A^{- 1} ∥$

对于线性方程组求解： $\frac{∥ δ x ∥}{∥ x ∥} \leq κ (A) \frac{∥ δ b ∥}{∥ b ∥}$

21.3 敏感性分析

范数灵敏性： $∥ A + ϵ E ∥ = ∥ A ∥ + ϵ ∥ E ∥ + o (ϵ)$

逆运算敏感性： $∥ (A + ϵ E)^{- 1} - A^{- 1} ∥ \approx ϵ ∥ A^{- 1} ∥∥ E ∥∥ A^{- 1} ∥$

21.4 结构化扰动

对称扰动：保持对称性的扰动

非对称扰动：可能改变特征值结构

秩-1扰动： $A + u v^{T}$

在低秩更新和一阶近似中有重要应用。

二十二、特殊矩阵类与不等式

22.1 Hadamard积与 Khatri-Rao积

Hadamard积（元素wise乘积）： $(A \circ B)_{ij} = A_{ij} B_{ij}$

Hadamard积的不等式：

Schur乘积定理：若 $A, B$ 半正定，则 $A \circ B$ 半正定
Oppenheim不等式： $det (A \circ B) \geq det (A) det (B)$

Khatri-Rao积（列wise Hadamard）： $A ⊙ B = [a_{1} \otimes b_{1}, a_{2} \otimes b_{2}, \dots]$

22.2 矩阵不等式

Poincaré分离定理： $λ_{i} (\frac{1}{k} \sum_{j = 1}^{k} X_{j} X_{j}^{T}) \leq \frac{1}{k} \sum_{j = 1}^{k} λ_{i} (X_{j} X_{j}^{T})$

Fischer不等式： $det (A B^{T} B D) \leq det (A) det (D)$

当分块矩阵对称正定时。

22.3 范数不等式

Holder不等式： $∥ A B ∥_{1} \leq ∥ A ∥_{p} ∥ B ∥_{q}, \frac{1}{p} + \frac{1}{q} = 1$

Schatten范数： $∥ A ∥_{S_{p}} = (\sum_{i} σ_{i}^{p})^{1/ p}$

$p = 1$ ：核范数（trace norm）
$p = 2$ ：Frobenius范数
$p = \infty$ ：谱范数

22.4 矩阵单调性与凸性

Lowner-John定理：

唯一体积最小的椭球包含给定的凸体。

矩阵凸函数： $f (\frac{A + B}{2}) \leq \frac{f ( A ) + f ( B )}{2}$

当 $f$ 是矩阵凸函数时。

二十三、图与网络的矩阵表示

23.1 图的矩阵表示

邻接矩阵 $A$ ： $A_{ij} = {10 若 (i, j) \in E 否则$

拉普拉斯矩阵 $L = D - A$ ：

$D$ ：度矩阵（对角矩阵， $D_{ii} = de g (i)$ ）
$L$ 半正定
$L$ 的特征值 $0 = λ_{1} \leq λ_{2} \leq \dots \leq λ_{n}$

符号拉普拉斯矩阵： $L_{s} = D - A_{s}$

用于符号图（边有正负权）。

23.2 谱图理论

连通性与谱：

图的连通分量数等于 $L$ 中零特征值的重数。

Cheeger不等式： $\frac{h ( G )}{2} \leq λ_{2} \leq 2 h (G)$

其中 $h (G)$ 是图的 Cheeger 常数。

23.3 网络分析中的矩阵

PageRank： $π = (1 - α) (I - α P^{T})^{- 1} 1$

社区检测： $L_{n or m} = I - D^{- 1/2} A D^{- 1/2}$

使用谱聚类检测社区。

23.4 图神经网络中的矩阵操作

消息传递： $h_{v}^{(k + 1)} = σ (W^{(k)} \sum_{u \in N (v)} \frac{h _{u}^{(k)}}{∣ N ( v ) ∣})$

图卷积： $H^{(l + 1)} = σ (D^{- 1/2} A D^{- 1/2} H^{(l)} W^{(l)})$

二十四、量子计算中的线性代数

24.1 量子态的表示

量子比特（Qubit）： $∣ ψ ⟩ = α ∣0 ⟩ + β ∣1 ⟩ = (α β)$

其中 $∣ α ∣^{2} + ∣ β ∣^{2} = 1$ 。

多比特系统： $∣ ψ ⟩ = \sum_{x \in {0, 1}^{n}} α_{x} ∣ x ⟩$

向量维度 $2^{n}$ 。

24.2 量子门（酉矩阵）

单比特门：

Hadamard： $H = \frac{1}{2} (11 1 - 1)$
Pauli门： $X, Y, Z$
相位门： $S = (10 0 i)$
$T$ 门

多比特门：

CNOT（控制-非门）
Toffoli门（CCNOT）
SWAP门

24.3 量子测量

投影测量： $P_{m} = ∣ m ⟩ ⟨ m ∣$ $P (m) = ⟨ ψ ∣ P_{m} ∣ ψ ⟩$

POVM测量： $E_{m} = M_{m}^{†} M_{m}, \sum_{m} E_{m} = I$

24.4 量子算法中的线性代数

Grover算法：

振幅放大
$O (N)$ 加速

HHL算法（解线性方程组）： $∣ x ⟩ = \sum_{i} \frac{b _{i}}{λ _{i}} ∣ u_{i} ⟩$ $O (lo g N) 多项式深度$

参考文献

Strang, G. (2009). Introduction to Linear Algebra (4th ed.). Wellesley-Cambridge Press.
Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.
Horn, R. A., & Johnson, C. R. (2012). Matrix Analysis (2nd ed.). Cambridge University Press.
Petersen, K. B., & Pedersen, M. S. (2012). The Matrix Cookbook. Technical University of Denmark.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
Demmel, J. W. (1997). Applied Numerical Linear Algebra. SIAM.
Saad, Y. (2003). Iterative Methods for Sparse Linear Systems (2nd ed.). SIAM.
Trefethen, L. N., & Bau III, D. (1997). Numerical Linear Algebra. SIAM.
Higham, N. J. (2002). Accuracy and Stability of Numerical Algorithms (2nd ed.). SIAM.
Schölkopf, B., & Smola, A. J. (2002). Learning with Kernels. MIT Press.
Absil, P.-A., Mahony, R., & Sepulchre, R. (2009). Optimization Algorithms on Matrix Manifolds. Princeton University Press.
Edelman, A., Arias, T. A., & Smith, S. T. (1998). The geometry of algorithms with orthogonality constraints. SIAM J. Matrix Anal. Appl., 20(2), 303-353.
Bai, Z., & Silverstein, J. W. (2010). Spectral Analysis of Large Dimensional Random Matrices (2nd ed.). Springer.
Recht, B., Fazel, M., & Parrilo, P. A. (2010). Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization. SIAM Review, 52(3), 471-501.
Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.
Bhatia, R. (1997). Matrix Analysis. Springer.
Stewart, G. W., & Sun, J. G. (1990). Matrix Perturbation Theory. Academic Press.
Chung, F. R. K. (1997). Spectral Graph Theory. American Mathematical Society.
Nielsen, M. A., & Chuang, I. L. (2010). Quantum Computation and Quantum Information (10th ed.). Cambridge University Press.
Meyer, C. D. (2000). Matrix Analysis and Applied Linear Algebra. SIAM.

人工智能知识库

探索

线性代数深度指南

线性代数深度指南

关键词

一、向量空间与基

1.1 向量空间的定义

1.2 子空间、基与维数

1.3 内积空间

二、矩阵运算与分解

2.1 矩阵基本运算

2.2 LU分解

2.3 QR分解

2.4 奇异值分解（SVD）

2.5 谱分解（特征分解）

三、特征值与特征向量

3.1 定义与基本性质

3.2 特征向量的几何意义

3.3 矩阵的迹与幂

四、正交性与最小二乘

4.1 正交与正交矩阵

4.2 正交投影

4.3 最小二乘法

4.4 约束最小二乘

五、矩阵微积分

5.1 矩阵导数的定义

5.2 常用矩阵求导公式

5.3 二阶导数与Hessian矩阵

六、线性代数在机器学习中的应用

6.1 主成分分析（PCA）

6.2 线性回归与广义线性模型

6.3 奇异值分解的降维应用

6.4 神经网络中的线性代数

七、特殊矩阵类与矩阵性质

7.1 对称矩阵与反对称矩阵

7.2 正交矩阵与酉矩阵

7.3 正规矩阵与谱定理

7.4 正定矩阵与半正定矩阵

7.5 稀疏矩阵与带状矩阵

八、矩阵范数与矩阵分析

8.1 向量范数的种类

8.2 矩阵范数

8.3 谱半径与矩阵幂

8.4 矩阵扰动分析

九、特征值计算的数值方法

9.1 幂迭代法与反幂迭代法

9.2 QR算法

9.3 对称特征值问题的特殊方法

9.4 Rayleigh商迭代

十、奇异值分解的深入应用

10.1 低秩逼近与Eckart-Young定理

10.2 伪逆与最小范数解

10.3 主成分分析与因子分析

10.4 矩阵补全与推荐系统

十一、核方法与特征空间

11.1 核函数的数学基础

11.2 核主成分分析（Kernel PCA）

11.3 支撑向量机与核技巧

十二、张量基础

12.1 张量的定义与表示

12.2 张量分解

12.3 张量在机器学习中的应用

十三、线性代数在深度学习中的前沿应用

13.1 Transformer架构的线性代数基础

13.2 参数效率与低秩适配

13.3 谱范数与权重归一化

十四、线性代数与其他数学领域的联系

14.1 线性代数与图论

14.2 线性代数与数值分析

14.3 线性代数与最优化

14.4 线性代数与量子计算

十五、现代线性代数软件与计算实践

15.1 BLAS与LAPACK层级

15.2 GPU加速与cuBLAS

15.3 稀疏矩阵计算库

15.4 分布式线性代数

十六、流形上的线性代数

16.1 Grassmann流形

16.2 Stiefel流形

16.3 对称正定矩阵流形