线性代数深度指南

文档概述

线性代数是现代数学与机器学习的基石。本指南从向量空间出发，系统涵盖矩阵运算与分解、特征值理论、最小二乘法以及矩阵微积分等核心内容，并深入探讨其在机器学习中的广泛应用。

关键词

序号	关键词	英文	核心概念
1	向量空间	Vector Space	$(R^{n}, +, \cdot)$
2	基	Basis	$span {v_{1}, \dots, v_{n}} = V$
3	矩阵分解	Matrix Decomposition	$A = U Σ V^{T}$
4	特征值	Eigenvalue	$A v = λ v$
5	特征向量	Eigenvector	满足 $A v = λ v$ 的非零向量
6	正交性	Orthogonality	$⟨ u, v ⟩ = 0$
7	最小二乘	Least Squares	$min ∥ A x - b ∥^{2}$
8	矩阵微积分	Matrix Calculus	$\frac{\partial f ( X )}{\partial X}$
9	SVD	Singular Value Decomposition	$A = U Σ V^{T}$
10	正定矩阵	Positive Definite	$x^{T} A x > 0, \forall x \neq = 0$
11	迹	Trace	$tr (A) = \sum_{i} A_{ii}$
12	行列式	Determinant	$det (A)$

一、向量空间与基

1.1 向量空间的定义

向量空间（或线性空间） $V$ 是定义在域 $F$ （通常为 $R$ 或 $C$ ）上的集合，配备两种运算：

向量加法： $u + v \in V$ 对所有 $u, v \in V$
标量乘法： $c v \in V$ 对所有 $c \in F$ ， $v \in V$

必须满足8条公理：结合律、交换律、零向量存在、加法逆元、标量乘法对向量加法的分配律、标量乘法对标量加法的分配律、标量乘法结合律、标量乘法单位元。

$R^{n}$ 是最常见的向量空间：所有 $n$ 维实向量的集合。

1.2 子空间、基与维数

子空间：向量空间 $V$ 的子集 $W$ 若对加法和标量乘法封闭，则称 $W$ 为 $V$ 的子空间。

张成空间：向量组 ${v_{1}, \dots, v_{k}}$ 的张成空间定义为： $span {v_{1}, \dots, v_{k}} = {c_{1} v_{1} + \dots + c_{k} v_{k} : c_{i} \in F}$

线性无关：若 $c_{1} v_{1} + \dots + c_{k} v_{k} = 0$ 蕴含所有 $c_{i} = 0$ ，则向量组线性无关。

基：线性无关且张成整个空间的向量组。基中向量的个数称为维数 $dim (V)$ 。

标准基： $R^{n}$ 的标准基为 $e_{1} = (1, 0, \dots, 0), e_{2} = (0, 1, \dots, 0), \dots, e_{n} = (0, 0, \dots, 1)$ 。

基变换示例

向量 $x = (3, 1)^{T}$ 在标准基下的坐标即为 $(3, 1)^{T}$ 。但在基 $v_{1} = (1, 1)^{T}, v_{2} = (1, - 1)^{T}$ 下， $x = 2 v_{1} + 1 v_{2}$ ，坐标为 $(2, 1)^{T}$ 。

1.3 内积空间

内积是向量空间上的双线性函数 $⟨ \cdot, \cdot ⟩ : V \times V \to F$ ，满足：

共轭对称性： $⟨ u, v ⟩ = \overline{⟨ v, u ⟩}$
线性性： $⟨ c u + v, w ⟩ = c ⟨ u, w ⟩ + ⟨ v, w ⟩$
正定性： $⟨ v, v ⟩ \geq 0$ ，且等号成立当且仅当 $v = 0$

在 $R^{n}$ 中，标准内积为 $⟨ u, v ⟩ = u^{T} v = \sum_{i} u_{i} v_{i}$ 。

范数由内积导出： $∥ v ∥ = ⟨ v, v ⟩$ 。

二、矩阵运算与分解

2.1 矩阵基本运算

设 $A \in R^{m \times n}$ ， $B \in R^{n \times p}$ ：

乘法： $(A B)_{ij} = \sum_{k = 1}^{n} A_{ik} B_{kj}$ ，结果为 $m \times p$ 矩阵
转置： $(A^{T})_{ij} = A_{ji}$
逆： $A A^{- 1} = A^{- 1} A = I$ （仅当 $A$ 可逆，即 $det (A) \neq = 0$ ）

行列式的性质：

$det (A B) = det (A) det (B)$
$det (A^{T}) = det (A)$
$A$ 可逆当且仅当 $det (A) \neq = 0$

迹： $tr (A) = \sum_{i = 1}^{n} A_{ii}$ ，满足循环性质 $tr (A BC) = tr (BC A) = tr (C A B)$ 。

2.2 LU分解

LU分解将矩阵分解为下三角矩阵 $L$ 和上三角矩阵 $U$ 的乘积：

$A = LU$

其中 $L$ 是单位下三角矩阵（对角线元素为1）， $U$ 是上三角矩阵。

LU分解在求解线性方程组 $A x = b$ 时极为高效：

前向替换： $L y = b$ 求解 $y$
后向替换： $U x = y$ 求解 $x$

带行交换的LU分解（PA = LU）：为保证数值稳定性，实际计算中通常引入置换矩阵 $P$ ：

$P A = LU$

2.3 QR分解

QR分解将矩阵分解为正交矩阵 $Q$ 和上三角矩阵 $R$ ：

$A = QR$

其中 $Q \in R^{m \times n}$ 满足 $Q^{T} Q = I$ （列正交）， $R \in R^{n \times n}$ 为上三角。

QR分解的计算方法：

Gram-Schmidt正交化
Householder变换（数值更稳定）
Givens旋转

2.4 奇异值分解（SVD）

奇异值分解是矩阵最重要的分解形式之一，适用于任意 $m \times n$ 矩阵：

$A = U Σ V^{T}$

其中：

$U \in R^{m \times m}$ 是正交矩阵（ $A$ 的左奇异向量）
$Σ \in R^{m \times n}$ 是对角矩阵，对角线元素为奇异值 $σ_{1} \geq σ_{2} \geq \dots \geq σ_{r} > 0$
$V \in R^{n \times n}$ 是正交矩阵（ $A$ 的右奇异向量）
$r = rank (A)$ 是矩阵的秩

几何意义：SVD将线性变换分解为旋转→缩放→旋转三个步骤。奇异值 $σ_{i}$ 表示在各正交方向上的伸缩因子。

SVD与特征值的关系

$A A^{T} = U Σ^{2} U^{T}$ ，故 $A A^{T}$ 的特征值是 $σ_{i}^{2}$

$A^{T} A = V Σ^{2} V^{T}$ ，故 $A^{T} A$ 的特征值也是 $σ_{i}^{2}$

若 $A$ 对称正定（ $A = Q Λ Q^{T}$ ），则奇异值就是特征值的绝对值

2.5 谱分解（特征分解）

对于可对角化矩阵 $A \in R^{n \times n}$ （有 $n$ 个线性无关特征向量）：

$A = Q Λ Q^{- 1}$

其中 $Q$ 的列是特征向量， $Λ = diag (λ_{1}, \dots, λ_{n})$ 是对角特征值矩阵。

实对称矩阵的特殊情况（谱定理）： $A = Q Λ Q^{T}$

其中 $Q$ 是正交矩阵，特征值均为实数。

三、特征值与特征向量

3.1 定义与基本性质

特征值 $λ$ 和特征向量 $v \neq = 0$ 满足：

$A v = λ v$

特征方程（特征多项式）： $det (A - λ I) = 0$

特征值的基本性质：

$det (A) = \prod_{i = 1}^{n} λ_{i}$ （特征值的乘积）
$tr (A) = \sum_{i = 1}^{n} λ_{i}$ （特征值的和）
$rank (A) = 非零特征值的个数$
$det (e^{A}) = e^{tr (A)}$

3.2 特征向量的几何意义

特征向量 $v$ 满足： $A$ 在 $v$ 方向上的作用只是简单的缩放，缩放因子为特征值 $λ$ 。

若 $λ > 1$ ：向量被拉伸
若 $0 < λ < 1$ ：向量被压缩
若 $λ < 0$ ：向量反向
若 $∣ λ ∣ = 1$ ：向量仅旋转（正交矩阵的情况）

幂迭代：给定矩阵 $A$ ，反复计算 $A^{k} v$ 会收敛到主特征向量（对应最大特征值的特征向量）。

3.3 矩阵的迹与幂

Cayley-Hamilton定理：任意方阵满足其特征多项式： $p (λ) = det (λ I - A) \Rightarrow p (A) = 0$

这意味着 $A^{n}$ 可以表示为 $I, A, A^{2}, \dots, A^{n - 1}$ 的线性组合，这在某些矩阵计算中非常有用。

矩阵指数： $e^{A} = \sum_{k = 0}^{\infty} \frac{A ^{k}}{k !} = I + A + \frac{A ^{2}}{2 !} + \dots$

矩阵指数在微分方程 $d x / d t = A x$ 的求解中起关键作用： $x (t) = e^{A t} x (0)$ 。

四、正交性与最小二乘

4.1 正交与正交矩阵

正交向量： $u, v$ 正交当且仅当 $⟨ u, v ⟩ = 0$ 。

正交矩阵： $Q \in R^{n \times n}$ 满足 $Q^{T} Q = I$ 。

正交矩阵的性质：

$Q^{- 1} = Q^{T}$
$∥ Q x ∥ = ∥ x ∥$ （保范数）
$(Q u)^{T} (Q v) = u^{T} v$ （保内积）
$det (Q) = \pm 1$

4.2 正交投影

向量 $b$ 到子空间 $C (A)$ （ $A$ 的列空间）的正交投影为：

$\hat{b} = A (A^{T} A)^{- 1} A^{T} b$

投影矩阵： $P = A (A^{T} A)^{- 1} A^{T}$ ，满足 $P^{2} = P$ （幂等性）和 $P^{T} = P$ （对称性）。

Gram-Schmidt正交化：将线性无关向量组 ${a_{1}, \dots, a_{n}}$ 转化为正交向量组 ${q_{1}, \dots, q_{n}}$ ：

$q_{k} = a_{k} - \sum_{j = 1}^{k - 1} \frac{q _{j}^{T} a _{k}}{q _{j}^{T} q _{j}} q_{j}$

4.3 最小二乘法

最小二乘问题： $min_{x} ∥ A x - b ∥^{2}$

解满足正规方程（Normal Equations）： $A^{T} A x = A^{T} b$

解为 $\hat{x} = (A^{T} A)^{- 1} A^{T} b$ （当 $A^{T} A$ 可逆时）。

几何意义： $\hat{x}$ 使得 $A \hat{x}$ 是 $b$ 在 $A$ 列空间上的正交投影。

数值稳定的求解方法

直接求解正规方程 $(A^{T} A)^{- 1} A^{T} b$ 数值不稳定（条件数平方）。推荐使用：

QR分解： $A = QR$ ，则 $\hat{x} = R^{- 1} Q^{T} b$

SVD： $\hat{x} = V Σ^{- 1} U^{T} b$ （当 $A$ 病态时最稳定）

4.4 约束最小二乘

正则化最小二乘（岭回归）： $min_{x} ∥ A x - b ∥^{2} + λ ∥ x ∥^{2}$

解为 $\hat{x} = (A^{T} A + λ I)^{- 1} A^{T} b$ 。

正则化的作用：

当 $A^{T} A$ 病态时， $λ I$ 改善条件数
引入偏差换取方差减小（偏差-方差权衡）
当 $λ > 0$ 时，解不会发散

五、矩阵微积分

5.1 矩阵导数的定义

标量对向量求导： $f : R^{n} \to R$

$\frac{\partial f}{\partial x} = \frac{\partial f}{\partial x _{1}} ⋮ \frac{\partial f}{\partial x _{n}}$

向量对向量求导（Jacobian）： $f : R^{n} \to R^{m}$

$\frac{\partial f}{\partial x} = \frac{\partial f _{1}}{\partial x _{1}} ⋮ \frac{\partial f _{1}}{\partial x _{n}} \dots ⋱ \dots \frac{\partial f _{m}}{\partial x _{1}} ⋮ \frac{\partial f _{m}}{\partial x _{n}}$

5.2 常用矩阵求导公式

函数	导数
$a^{T} x$	$a$
$x^{T} A x$ （ $A$ 对称）	$2 A x$
$x^{T} x$	$2 x$
$\	A\mathbf{x} - \mathbf{b}\
$lo g ∥Σ∥$ （ $Σ$ 对称正定）	$2 Σ^{- 1}$
$tr (A X)$	$A^{T}$

5.3 二阶导数与Hessian矩阵

Hessian矩阵：标量函数 $f : R^{n} \to R$ 的二阶导数：

$H = \frac{\partial ^{2} f}{\partial x \partial x ^{T}} = \frac{\partial ^{2} f}{\partial x _{1}^{2}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{1}} \dots ⋱ \dots \frac{\partial ^{2} f}{\partial x _{1} \partial x _{n}} ⋮ \frac{\partial ^{2} f}{\partial x _{n}^{2}}$

Hessian矩阵的性质：

若 $f$ 二阶连续可微，Hessian是对称的
凸函数的Hessian是半正定的
临界点（梯度为零）处的Hessian决定了极值性质

六、线性代数在机器学习中的应用

6.1 主成分分析（PCA）

PCA通过SVD寻找数据方差最大的正交方向（主成分）。

设数据矩阵 $X \in R^{n \times d}$ （ $n$ 个样本， $d$ 维特征），数据中心化为 $\sum_{i} x_{i} = 0$ 。

协方差矩阵： $C = \frac{1}{n - 1} X^{T} X$ 。

PCA步骤：

计算 $C$ 的特征值分解或 $X$ 的SVD： $X = U Σ V^{T}$
选择前 $k$ 个最大特征值对应的特征向量
投影数据到这 $k$ 维子空间

PCA的SVD视角

若 $X = U Σ V^{T}$ ，则 $X^{T} X = V Σ^{2} V^{T}$ 。因此 $V$ 的列（左奇异向量）正是 $X^{T} X$ 的特征向量，即PCA的主成分方向。奇异值 $σ_{i}$ 与特征值的关系为 $λ_{i} = σ_{i}^{2} / (n - 1)$ 。

6.2 线性回归与广义线性模型

线性回归： $y = w^{T} x + ϵ$

最小二乘解： $\hat{w} = (X^{T} X)^{- 1} X^{T} y$

Logistic回归： $P (y = 1∣ x) = σ (w^{T} x) = \frac{1}{1 + e ^{- w^{T} x}}$

通过梯度下降优化，参数更新： $w \leftarrow w - η \cdot \frac{\partial L}{\partial w}$

6.3 奇异值分解的降维应用

截断SVD：保留最大的 $k$ 个奇异值：

$A_{k} = U_{k} Σ_{k} V_{k}^{T}$

$A_{k}$ 是 $A$ 在Frobenius范数意义下的最优 $k$ 秩逼近（Eckart-Young定理）：

$∥ A - A_{k} ∥_{F}^{2} = \sum_{i = k + 1}^{r} σ_{i}^{2}$

这在推荐系统（如矩阵分解）和图像压缩中有重要应用。

6.4 神经网络中的线性代数

深度学习中的核心计算都是矩阵运算：

前向传播： $Z^{(l)} = W^{(l)} A^{(l - 1)} + b^{(l)}$
反向传播：通过链式法则计算梯度，本质是雅可比矩阵的乘积
注意力机制： $Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d _{k}}) V$

GPU的并行计算能力正是源于其对大规模矩阵运算的高效支持。

参考文献

Strang, G. (2009). Introduction to Linear Algebra (4th ed.). Wellesley-Cambridge Press.
Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.
Horn, R. A., & Johnson, C. R. (2012). Matrix Analysis (2nd ed.). Cambridge University Press.
Petersen, K. B., & Pedersen, M. S. (2012). The Matrix Cookbook. Technical University of Denmark.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

人工智能知识库

探索

线性代数深度指南

线性代数深度指南

关键词

一、向量空间与基

1.1 向量空间的定义

1.2 子空间、基与维数

1.3 内积空间

二、矩阵运算与分解

2.1 矩阵基本运算

2.2 LU分解

2.3 QR分解

2.4 奇异值分解（SVD）

2.5 谱分解（特征分解）

三、特征值与特征向量

3.1 定义与基本性质

3.2 特征向量的几何意义

3.3 矩阵的迹与幂

四、正交性与最小二乘

4.1 正交与正交矩阵

4.2 正交投影

4.3 最小二乘法

4.4 约束最小二乘

五、矩阵微积分

5.1 矩阵导数的定义

5.2 常用矩阵求导公式

5.3 二阶导数与Hessian矩阵

六、线性代数在机器学习中的应用

6.1 主成分分析（PCA）

6.2 线性回归与广义线性模型

6.3 奇异值分解的降维应用

6.4 神经网络中的线性代数

参考文献

相关文档

关系图谱

目录