线性代数深度指南
文档概述
线性代数是现代数学与机器学习的基石。本指南从向量空间出发,系统涵盖矩阵运算与分解、特征值理论、最小二乘法以及矩阵微积分等核心内容,并深入探讨其在机器学习中的广泛应用。
关键词
| 序号 | 关键词 | 英文 | 核心概念 |
|---|---|---|---|
| 1 | 向量空间 | Vector Space | |
| 2 | 基 | Basis | |
| 3 | 矩阵分解 | Matrix Decomposition | |
| 4 | 特征值 | Eigenvalue | |
| 5 | 特征向量 | Eigenvector | 满足 的非零向量 |
| 6 | 正交性 | Orthogonality | |
| 7 | 最小二乘 | Least Squares | |
| 8 | 矩阵微积分 | Matrix Calculus | |
| 9 | SVD | Singular Value Decomposition | |
| 10 | 正定矩阵 | Positive Definite | |
| 11 | 迹 | Trace | |
| 12 | 行列式 | Determinant |
一、向量空间与基
1.1 向量空间的定义
向量空间(或线性空间) 是定义在域 (通常为 或 )上的集合,配备两种运算:
- 向量加法: 对所有
- 标量乘法: 对所有 ,
必须满足8条公理:结合律、交换律、零向量存在、加法逆元、标量乘法对向量加法的分配律、标量乘法对标量加法的分配律、标量乘法结合律、标量乘法单位元。
是最常见的向量空间:所有 维实向量的集合。
1.2 子空间、基与维数
子空间:向量空间 的子集 若对加法和标量乘法封闭,则称 为 的子空间。
张成空间:向量组 的张成空间定义为:
线性无关:若 蕴含所有 ,则向量组线性无关。
基:线性无关且张成整个空间的向量组。基中向量的个数称为维数 。
标准基: 的标准基为 。
基变换示例
向量 在标准基下的坐标即为 。但在基 下,,坐标为 。
1.3 内积空间
内积是向量空间上的双线性函数 ,满足:
- 共轭对称性:
- 线性性:
- 正定性:,且等号成立当且仅当
在 中,标准内积为 。
范数由内积导出:。
二、矩阵运算与分解
2.1 矩阵基本运算
设 ,:
- 乘法:,结果为 矩阵
- 转置:
- 逆:(仅当 可逆,即 )
行列式的性质:
- 可逆当且仅当
迹:,满足循环性质 。
2.2 LU分解
LU分解将矩阵分解为下三角矩阵 和上三角矩阵 的乘积:
其中 是单位下三角矩阵(对角线元素为1), 是上三角矩阵。
LU分解在求解线性方程组 时极为高效:
- 前向替换: 求解
- 后向替换: 求解
带行交换的LU分解(PA = LU):为保证数值稳定性,实际计算中通常引入置换矩阵 :
2.3 QR分解
QR分解将矩阵分解为正交矩阵 和上三角矩阵 :
其中 满足 (列正交), 为上三角。
QR分解的计算方法:
- Gram-Schmidt正交化
- Householder变换(数值更稳定)
- Givens旋转
2.4 奇异值分解(SVD)
奇异值分解是矩阵最重要的分解形式之一,适用于任意 矩阵:
其中:
- 是正交矩阵( 的左奇异向量)
- 是对角矩阵,对角线元素为奇异值
- 是正交矩阵( 的右奇异向量)
- 是矩阵的秩
几何意义:SVD将线性变换分解为旋转→缩放→旋转三个步骤。奇异值 表示在各正交方向上的伸缩因子。
SVD与特征值的关系
- ,故 的特征值是
- ,故 的特征值也是
- 若 对称正定(),则奇异值就是特征值的绝对值
2.5 谱分解(特征分解)
对于可对角化矩阵 (有 个线性无关特征向量):
其中 的列是特征向量, 是对角特征值矩阵。
实对称矩阵的特殊情况(谱定理):
其中 是正交矩阵,特征值均为实数。
三、特征值与特征向量
3.1 定义与基本性质
特征值 和特征向量 满足:
特征方程(特征多项式):
特征值的基本性质:
- (特征值的乘积)
- (特征值的和)
3.2 特征向量的几何意义
特征向量 满足: 在 方向上的作用只是简单的缩放,缩放因子为特征值 。
- 若 :向量被拉伸
- 若 :向量被压缩
- 若 :向量反向
- 若 :向量仅旋转(正交矩阵的情况)
幂迭代:给定矩阵 ,反复计算 会收敛到主特征向量(对应最大特征值的特征向量)。
3.3 矩阵的迹与幂
Cayley-Hamilton定理:任意方阵满足其特征多项式:
这意味着 可以表示为 的线性组合,这在某些矩阵计算中非常有用。
矩阵指数:
矩阵指数在微分方程 的求解中起关键作用:。
四、正交性与最小二乘
4.1 正交与正交矩阵
正交向量: 正交当且仅当 。
正交矩阵: 满足 。
正交矩阵的性质:
- (保范数)
- (保内积)
4.2 正交投影
向量 到子空间 ( 的列空间)的正交投影为:
投影矩阵:,满足 (幂等性)和 (对称性)。
Gram-Schmidt正交化:将线性无关向量组 转化为正交向量组 :
4.3 最小二乘法
最小二乘问题:
解满足正规方程(Normal Equations):
解为 (当 可逆时)。
几何意义: 使得 是 在 列空间上的正交投影。
数值稳定的求解方法
直接求解正规方程 数值不稳定(条件数平方)。推荐使用:
- QR分解:,则
- SVD:(当 病态时最稳定)
4.4 约束最小二乘
正则化最小二乘(岭回归):
解为 。
正则化的作用:
- 当 病态时, 改善条件数
- 引入偏差换取方差减小(偏差-方差权衡)
- 当 时,解不会发散
五、矩阵微积分
5.1 矩阵导数的定义
标量对向量求导:
向量对向量求导(Jacobian):
5.2 常用矩阵求导公式
| 函数 | 导数 |
|---|---|
| ( 对称) | |
| $\ | A\mathbf{x} - \mathbf{b}\ |
| ( 对称正定) | |
5.3 二阶导数与Hessian矩阵
Hessian矩阵:标量函数 的二阶导数:
Hessian矩阵的性质:
- 若 二阶连续可微,Hessian是对称的
- 凸函数的Hessian是半正定的
- 临界点(梯度为零)处的Hessian决定了极值性质
六、线性代数在机器学习中的应用
6.1 主成分分析(PCA)
PCA通过SVD寻找数据方差最大的正交方向(主成分)。
设数据矩阵 ( 个样本, 维特征),数据中心化为 。
协方差矩阵:。
PCA步骤:
- 计算 的特征值分解或 的SVD:
- 选择前 个最大特征值对应的特征向量
- 投影数据到这 维子空间
PCA的SVD视角
若 ,则 。因此 的列(左奇异向量)正是 的特征向量,即PCA的主成分方向。奇异值 与特征值的关系为 。
6.2 线性回归与广义线性模型
线性回归:
最小二乘解:
Logistic回归:
通过梯度下降优化,参数更新:
6.3 奇异值分解的降维应用
截断SVD:保留最大的 个奇异值:
是 在Frobenius范数意义下的最优 秩逼近(Eckart-Young定理):
这在推荐系统(如矩阵分解)和图像压缩中有重要应用。
6.4 神经网络中的线性代数
深度学习中的核心计算都是矩阵运算:
- 前向传播:
- 反向传播:通过链式法则计算梯度,本质是雅可比矩阵的乘积
- 注意力机制:
GPU的并行计算能力正是源于其对大规模矩阵运算的高效支持。
参考文献
- Strang, G. (2009). Introduction to Linear Algebra (4th ed.). Wellesley-Cambridge Press.
- Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.
- Horn, R. A., & Johnson, C. R. (2012). Matrix Analysis (2nd ed.). Cambridge University Press.
- Petersen, K. B., & Pedersen, M. S. (2012). The Matrix Cookbook. Technical University of Denmark.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.