线性代数深度指南
文档概述
线性代数是现代数学与机器学习的基石。本指南从向量空间出发,系统涵盖矩阵运算与分解、特征值理论、最小二乘法以及矩阵微积分等核心内容,并深入探讨其在机器学习中的广泛应用。
关键词
| 序号 | 关键词 | 英文 | 核心概念 |
|---|---|---|---|
| 1 | 向量空间 | Vector Space | |
| 2 | 基 | Basis | |
| 3 | 矩阵分解 | Matrix Decomposition | |
| 4 | 特征值 | Eigenvalue | |
| 5 | 特征向量 | Eigenvector | 满足 的非零向量 |
| 6 | 正交性 | Orthogonality | |
| 7 | 最小二乘 | Least Squares | |
| 8 | 矩阵微积分 | Matrix Calculus | |
| 9 | SVD | Singular Value Decomposition | |
| 10 | 正定矩阵 | Positive Definite | |
| 11 | 迹 | Trace | |
| 12 | 行列式 | Determinant |
一、向量空间与基
1.1 向量空间的定义
向量空间(或线性空间) 是定义在域 (通常为 或 )上的集合,配备两种运算:
- 向量加法: 对所有
- 标量乘法: 对所有 ,
必须满足8条公理:结合律、交换律、零向量存在、加法逆元、标量乘法对向量加法的分配律、标量乘法对标量加法的分配律、标量乘法结合律、标量乘法单位元。
是最常见的向量空间:所有 维实向量的集合。
1.2 子空间、基与维数
子空间:向量空间 的子集 若对加法和标量乘法封闭,则称 为 的子空间。
张成空间:向量组 的张成空间定义为:
线性无关:若 蕴含所有 ,则向量组线性无关。
基:线性无关且张成整个空间的向量组。基中向量的个数称为维数 。
标准基: 的标准基为 。
基变换示例
向量 在标准基下的坐标即为 。但在基 下,,坐标为 。
1.3 内积空间
内积是向量空间上的双线性函数 ,满足:
- 共轭对称性:
- 线性性:
- 正定性:,且等号成立当且仅当
在 中,标准内积为 。
范数由内积导出:。
二、矩阵运算与分解
2.1 矩阵基本运算
设 ,:
- 乘法:,结果为 矩阵
- 转置:
- 逆:(仅当 可逆,即 )
行列式的性质:
- 可逆当且仅当
迹:,满足循环性质 。
2.2 LU分解
LU分解将矩阵分解为下三角矩阵 和上三角矩阵 的乘积:
其中 是单位下三角矩阵(对角线元素为1), 是上三角矩阵。
LU分解在求解线性方程组 时极为高效:
- 前向替换: 求解
- 后向替换: 求解
带行交换的LU分解(PA = LU):为保证数值稳定性,实际计算中通常引入置换矩阵 :
2.3 QR分解
QR分解将矩阵分解为正交矩阵 和上三角矩阵 :
其中 满足 (列正交), 为上三角。
QR分解的计算方法:
- Gram-Schmidt正交化
- Householder变换(数值更稳定)
- Givens旋转
2.4 奇异值分解(SVD)
奇异值分解是矩阵最重要的分解形式之一,适用于任意 矩阵:
其中:
- 是正交矩阵( 的左奇异向量)
- 是对角矩阵,对角线元素为奇异值
- 是正交矩阵( 的右奇异向量)
- 是矩阵的秩
几何意义:SVD将线性变换分解为旋转→缩放→旋转三个步骤。奇异值 表示在各正交方向上的伸缩因子。
SVD与特征值的关系
- ,故 的特征值是
- ,故 的特征值也是
- 若 对称正定(),则奇异值就是特征值的绝对值
2.5 谱分解(特征分解)
对于可对角化矩阵 (有 个线性无关特征向量):
其中 的列是特征向量, 是对角特征值矩阵。
实对称矩阵的特殊情况(谱定理):
其中 是正交矩阵,特征值均为实数。
三、特征值与特征向量
3.1 定义与基本性质
特征值 和特征向量 满足:
特征方程(特征多项式):
特征值的基本性质:
- (特征值的乘积)
- (特征值的和)
3.2 特征向量的几何意义
特征向量 满足: 在 方向上的作用只是简单的缩放,缩放因子为特征值 。
- 若 :向量被拉伸
- 若 :向量被压缩
- 若 :向量反向
- 若 :向量仅旋转(正交矩阵的情况)
幂迭代:给定矩阵 ,反复计算 会收敛到主特征向量(对应最大特征值的特征向量)。
3.3 矩阵的迹与幂
Cayley-Hamilton定理:任意方阵满足其特征多项式:
这意味着 可以表示为 的线性组合,这在某些矩阵计算中非常有用。
矩阵指数:
矩阵指数在微分方程 的求解中起关键作用:。
四、正交性与最小二乘
4.1 正交与正交矩阵
正交向量: 正交当且仅当 。
正交矩阵: 满足 。
正交矩阵的性质:
- (保范数)
- (保内积)
4.2 正交投影
向量 到子空间 ( 的列空间)的正交投影为:
投影矩阵:,满足 (幂等性)和 (对称性)。
Gram-Schmidt正交化:将线性无关向量组 转化为正交向量组 :
4.3 最小二乘法
最小二乘问题:
解满足正规方程(Normal Equations):
解为 (当 可逆时)。
几何意义: 使得 是 在 列空间上的正交投影。
数值稳定的求解方法
直接求解正规方程 数值不稳定(条件数平方)。推荐使用:
- QR分解:,则
- SVD:(当 病态时最稳定)
4.4 约束最小二乘
正则化最小二乘(岭回归):
解为 。
正则化的作用:
- 当 病态时, 改善条件数
- 引入偏差换取方差减小(偏差-方差权衡)
- 当 时,解不会发散
五、矩阵微积分
5.1 矩阵导数的定义
标量对向量求导:
向量对向量求导(Jacobian):
5.2 常用矩阵求导公式
| 函数 | 导数 |
|---|---|
| ( 对称) | |
| $\ | A\mathbf{x} - \mathbf{b}\ |
| ( 对称正定) | |
5.3 二阶导数与Hessian矩阵
Hessian矩阵:标量函数 的二阶导数:
Hessian矩阵的性质:
- 若 二阶连续可微,Hessian是对称的
- 凸函数的Hessian是半正定的
- 临界点(梯度为零)处的Hessian决定了极值性质
六、线性代数在机器学习中的应用
6.1 主成分分析(PCA)
PCA通过SVD寻找数据方差最大的正交方向(主成分)。
设数据矩阵 ( 个样本, 维特征),数据中心化为 。
协方差矩阵:。
PCA步骤:
- 计算 的特征值分解或 的SVD:
- 选择前 个最大特征值对应的特征向量
- 投影数据到这 维子空间
PCA的SVD视角
若 ,则 。因此 的列(左奇异向量)正是 的特征向量,即PCA的主成分方向。奇异值 与特征值的关系为 。
6.2 线性回归与广义线性模型
线性回归:
最小二乘解:
Logistic回归:
通过梯度下降优化,参数更新:
6.3 奇异值分解的降维应用
截断SVD:保留最大的 个奇异值:
是 在Frobenius范数意义下的最优 秩逼近(Eckart-Young定理):
这在推荐系统(如矩阵分解)和图像压缩中有重要应用。
6.4 神经网络中的线性代数
深度学习中的核心计算都是矩阵运算:
- 前向传播:
- 反向传播:通过链式法则计算梯度,本质是雅可比矩阵的乘积
- 注意力机制:
GPU的并行计算能力正是源于其对大规模矩阵运算的高效支持。
七、特殊矩阵类与矩阵性质
7.1 对称矩阵与反对称矩阵
对称矩阵满足 ,在机器学习中极为常见,因为协方差矩阵就是对称的。
对称矩阵的性质:
- 所有特征值都是实数
- 特征向量可以选为正交的(谱定理)
- 正定当且仅当所有特征值大于零
- 对称矩阵的Cholesky分解:( 为下三角)
反对称矩阵满足 。实反对称矩阵的性质:
- 对角线元素全为零
- 特征值是纯虚数或零(成共轭对出现)
- 是正交矩阵(这与李代数密切相关)
反对称矩阵与旋转
三维空间中的旋转可以表示为 ,其中 是反对称矩阵。这建立了矩阵指数与旋转群之间的联系,是机器人学和计算机图形学的理论基础。
7.2 正交矩阵与酉矩阵
正交矩阵 满足 。
正交矩阵的几何意义:
- 列向量构成 的标准正交基
- 保持欧氏范数:
- 保持内积:
- 行列式
酉矩阵 是复数域的正交矩阵,满足 ( 是共轭转置)。
酉矩阵的性质:
- 保持复向量的范数
- 特征值的模为1(位于复平面的单位圆上)
- 在量子力学中,酉变换对应量子态的幺正演化
Householder矩阵是构造正交矩阵的基本工具:
Householder变换用于将向量归零,在QR分解和特征值计算中广泛应用。
Givens旋转是另一种正交变换,用于逐元素归零。
7.3 正规矩阵与谱定理
正规矩阵满足 。
重要的矩阵类都是正规的:
- 实对称矩阵()
- 实反对称矩阵()
- 正交矩阵()
- 复Hermitian矩阵()
- 复酉矩阵()
谱定理:正规矩阵 可以酉对角化: 其中 是酉矩阵,。
实对称矩阵的谱分解
实对称矩阵 ,其中 的列是单位正交特征向量, 是实对角矩阵(特征值)。
这使得函数 可以自然定义:
7.4 正定矩阵与半正定矩阵
正定矩阵 满足:
半正定矩阵满足 。
正定矩阵的等价条件:
- 所有特征值大于零
- 所有顺序主子式大于零(Sylvester准则)
- 存在唯一的正定平方根
- 对某个可逆矩阵
- 的Cholesky分解存在且唯一:
条件数与正定性密切相关:
条件数越大,线性方程组求解越不稳定。病态矩阵(条件数极大)的数值求解需要正则化技术。
7.5 稀疏矩阵与带状矩阵
稀疏矩阵中大部分元素为零。在大规模科学计算和机器学习中,稀疏结构可以大幅节省存储和计算。
带状矩阵:非零元素集中在主对角线附近的带区域内。
- 带宽 :满足 当
- 带状矩阵的LU分解保持带状结构
- 存储复杂度从 降低到
三对角矩阵
在微分方程数值解和样条插值中,三对角矩阵频繁出现。通过Thomas算法(带状LU分解的特殊形式),求解复杂度从 降低到 。
八、矩阵范数与矩阵分析
8.1 向量范数的种类
向量范数 衡量向量的大小,必须满足:
- 正定性:,等号成立当且仅当
- 齐次性:
- 三角不等式:
常用向量范数:
- 范数(曼哈顿范数):,对应Lasso回归中的稀疏诱导
- 范数(欧几里得范数):,最常用的范数
- 范数(切比雪夫范数):
- 范数:
8.2 矩阵范数
矩阵范数必须满足向量范数的三条公理加上次乘性:。
诱导范数(算子范数):
- = 列绝对值和的最大值(列和范数)
- = 最大奇异值(谱范数)=
- = 行绝对值和的最大值(行和范数)
Frobenius范数:
Frobenius范数的性质:
- 不具有诱导性,但满足次乘性
- 等价于向量化后的 范数
- 与SVD关系:
8.3 谱半径与矩阵幂
谱半径 是特征值模的最大值。
谱半径的重要性质:
- (任何矩阵范数)
- 若 对称,则
- 当且仅当
矩阵幂的行为:
- 若 对所有 ,则
- 若最大特征值的模大于1,则 的范数发散
- 幂迭代法 收敛到主特征向量
8.4 矩阵扰动分析
设 是对 的扰动,相对扰动界分析如下。
条件数 度量解对扰动的敏感度:
对于线性方程组 ,若 病态(条件数大),小的扰动会导致解的巨大变化。
扰动下的特征值稳定性:
- 正规矩阵的特征值对扰动相对稳定
- 非正规矩阵的特征值可能剧烈变化(即使矩阵元素只有微小扰动)
非正规矩阵的病态问题
一个经典的例子是 Jordan 块: 即使 极小, 的特征值可能偏离 。这在数值分析中称为”特征值扰动病态”。
九、特征值计算的数值方法
9.1 幂迭代法与反幂迭代法
幂迭代法是最简单的特征值算法:
给定矩阵 A 和初始向量 b₀
重复:
v = Abₖ
bₖ₊₁ = v / ||v||
λₖ = bₖᵀ A bₖ
直到收敛
收敛性分析:
- 若 ,则 收敛到主特征向量
- 收敛速度由 决定
- 若特征值接近,需要加速技术(如Aitken外推)
反幂迭代法用于计算特定特征向量:
给定接近λ的估计μ
重复:
解 (A - μI)z = bₖ
bₖ₊₁ = z / ||z||
λₖ = bₖᵀ A bₖ
反幂迭代法收敛极快(局部二次收敛),常用于已知近似特征值后的精化。
9.2 QR算法
QR算法是计算所有特征值的标准方法。
基本QR迭代:
A₀ = A
重复 k = 0, 1, 2, ...:
Aₖ = Qₖ Rₖ (QR分解)
Aₖ₊₁ = Rₖ Qₖ
关键性质:
- 与 正交相似:
- 若 对称,则 保持对称且渐近趋向对角矩阵
- 收敛到Schur形式:(上三角)
位移策略:引入位移 加速收敛
9.3 对称特征值问题的特殊方法
对于对称矩阵,可以使用更高效的专用方法。
Jacobi方法:
- 通过一系列平面旋转逐步将非对角元素归零
- 收敛到对角矩阵
- 适合稠密小矩阵
二分法:
- 利用 Sturm 序列性质定位特征值
- 适合带状矩阵
- 计算单个特征值的效率高
分而治之算法(Divide and Conquer):
- 将问题递归分解
- 适合并行计算
- 现代 LAPACK 的主要方法
9.4 Rayleigh商迭代
Rayleigh商迭代结合了幂迭代和特征值的Rayleigh商估计:
给定初始向量 q₀(||q₀|| = 1)
重复:
μₖ = qₖᵀ A qₖ (Rayleigh商)
解 (A - μₖ I)qₖ₊₁ = qₖ
qₖ₊₁ = qₖ₊₁ / ||qₖ₊₁||
收敛性质:
- 收敛速度是立方的(比普通幂迭代快得多)
- 若初始向量足够好,迭代几乎立即收敛
- 是计算对称矩阵主特征向量的最有效方法之一
十、奇异值分解的深入应用
10.1 低秩逼近与Eckart-Young定理
Eckart-Young定理(1936)给出了矩阵最优低秩逼近的精确刻画:
设 是 矩阵的SVD,。定义截断SVD: 其中 、 保留前 列, 保留前 个奇异值。
则 是 在Frobenius范数和谱范数意义下的最优 秩逼近:
图像压缩中的应用
一张 灰度图像是 262,144 个像素。若保留前 个奇异值:
- 存储量:从 减少到
- 当 时,压缩比约为 52:1
- 视觉质量通常在 时保持良好
10.2 伪逆与最小范数解
Moore-Penrose伪逆 是逆矩阵在非方阵情形下的推广:
若 是SVD,则: 其中 将非零奇异值取倒数并转置。
伪逆的性质:
- (幂等对称)
- (幂等对称)
最小范数最小二乘解:
这是所有最小二乘解中欧几里得范数最小的解。
10.3 主成分分析与因子分析
**主成分分析(PCA)**与SVD的关系:
设数据矩阵 ( 个样本, 维特征),数据中心化。
PCA通过SVD实现:
- 计算 的SVD:
- 主成分是 的列(右奇异向量)
- 第 个主成分的方差贡献为
- 投影后的数据为
因子分析模型:
其中:
- 是因子载荷矩阵
- 是公共因子
- 是特异误差
因子分析与PCA的区别:
- PCA是描述性方法,FA是生成模型
- FA允许噪声在各维度不同
- FA的参数估计需要迭代(如EM算法)
10.4 矩阵补全与推荐系统
矩阵补全问题:
在推荐系统中, 是用户-物品评分矩阵,大部分位置未知。
核范数最小化:
其中 是矩阵的核范数(奇异值之和)。
理论上,若缺失是随机的且矩阵满足低秩+不相干条件,可以精确恢复。
低秩矩阵恢复的样本复杂度
若 矩阵秩为 ,需要大约 个观测值即可高概率精确恢复,其中 是不相干参数。这为Netflix问题和矩阵填充提供了理论保证。
十一、核方法与特征空间
11.1 核函数的数学基础
核函数 是满足Mercer条件的对称函数:
其中 是到**再生核希尔伯特空间(RKHS)**的特征映射。
Mercer定理:若 是连续、对称且正定的核函数,则存在特征映射 和特征值 使得:
常用的核函数:
- 线性核:
- 多项式核:
- 高斯核(RBF):
- 拉普拉斯核:
11.2 核主成分分析(Kernel PCA)
核PCA通过特征映射 将数据映射到高维特征空间,然后执行PCA:
- 计算核矩阵
- 中心化核矩阵:
- 对 进行特征分解
- 投影数据:
核PCA可以捕获数据中的非线性结构,是PCA的推广。
瑞士卷数据集
在二维平面上呈螺旋结构的数据,线性PCA只能提取全局主方向。核PCA(尤其是高斯核)可以展开瑞士卷,提取流形内在维度。
11.3 支撑向量机与核技巧
**支撑向量机(SVM)**的优化问题:
对偶问题:
核技巧的核心洞察:优化问题只涉及内积 ,可以直接用核函数替换。
这使得SVM可以处理:
- 非线性分类边界
- 文本分类(高维稀疏特征)
- 图像分类(局部特征)
十二、张量基础
12.1 张量的定义与表示
张量是多维数组的泛化:
- 0阶张量 = 标量
- 1阶张量 = 向量
- 2阶张量 = 矩阵
- 阶张量 = 维数组
设 是 阶张量。
纤维(Fiber):张量固定其他维度后得到的一维切片。
切片(Slice):张量固定一个维度后得到的二维矩阵。
12.2 张量分解
CP分解(CANDECOMP/PARAFAC):
其中 是外积, 是分解的秩。
Tucker分解:
其中 是核心张量, 是因子矩阵。
张量秩与矩阵秩的不同:
- 张量秩定义为最小CP分解的项数
- 张量秩的计算是NP-hard问题
- 某些张量没有有限秩表示(亏秩问题)
12.3 张量在机器学习中的应用
高阶矩分析:
张量可以自然表示高阶统计量。
神经网络中的张量:
- 权重矩阵是2阶张量
- 卷积层的卷积核是4阶张量(输出通道 × 输入通道 × 高度 × 宽度)
- 注意力机制的键、查询、值是3阶张量
张量回归:
其中 是回归系数张量, 是内积。
十三、线性代数在深度学习中的前沿应用
13.1 Transformer架构的线性代数基础
自注意力机制:
矩阵分解视角:
- 计算 与 的乘积()
- softmax对每行归一化
- 最后乘以 得到输出
Flash Attention通过分块计算和矩阵乘法的结合,将复杂度从 降低到 内存。
13.2 参数效率与低秩适配
LoRA(Low-Rank Adaptation):
通过低秩分解 大幅减少可训练参数数量,同时保持模型性能。
理论基础:
- 预训练模型的权重变化 通常具有低秩结构
- 内在维度假说:任务相关的参数更新只占据少数主方向
13.3 谱范数与权重归一化
权重归一化:
通过将权重向量分离为方向和模长,加速梯度下降收敛。
谱归一化:
通过约束判别器权重的谱范数,稳定GAN训练(Wasserstein距离的理论保证)。
十四、线性代数与其他数学领域的联系
14.1 线性代数与图论
图的邻接矩阵 :
拉普拉斯矩阵 ( 是度矩阵):
- 是半正定的,特征值 对应常数特征向量
- 谱聚类基于 的小特征值进行社区检测
- Cheeger不等式连接图的连通性和谱性质
图神经网络的消息传递:
矩阵形式:
14.2 线性代数与数值分析
迭代法的矩阵视角:
- Jacobi迭代:(对角部分)
- Gauss-Seidel迭代:(下三角部分)
- SOR迭代:
收敛性由谱半径 决定。
14.3 线性代数与最优化
共轭梯度法:
对于正定系统 ,共轭梯度法在 步内收敛到精确解。
KKT条件与矩阵结构:
约束优化问题的KKT系统具有鞍点结构。
14.4 线性代数与量子计算
量子态的向量表示:
量子门是酉矩阵:
- Hadamard门:
- Pauli门:,
- CNOT门:控制-非门,是重要的两比特门
量子计算的线性代数本质使得经典计算机可以模拟量子系统(虽然可能指数级慢)。
十五、现代线性代数软件与计算实践
15.1 BLAS与LAPACK层级
BLAS(Basic Linear Algebra Subprograms)提供底层矩阵运算:
- Level 1:向量-向量操作()
- Level 2:矩阵-向量操作()
- Level 3:矩阵-矩阵操作()
LAPACK(Linear Algebra PACKage)建立在BLAS之上,提供:
- 线性方程组求解
- 特征值与奇异值分解
- 线性最小二乘问题
- 矩阵分解(LU、QR、Cholesky、SVD等)
15.2 GPU加速与cuBLAS
cuBLAS是NVIDIA的GPU加速BLAS实现:
- 利用GPU的数千个核心进行并行计算
- 矩阵-矩阵乘法(GEMM)可达数百TFLOPS
- 深度学习框架(如PyTorch、TensorFlow)底层依赖cuBLAS
混合精度计算:
- 使用FP16矩阵乘法 + FP32累加
- 张量核(Tensor Core)支持矩阵-矩阵-矩阵乘法(HMMA)
- 显著加速同时保持数值精度
15.3 稀疏矩阵计算库
SuiteSparse:
- 提供稀疏LU、QR、Cholesky分解
- 支持多种稀疏矩阵格式(CSR、CSC、COO)
Eigen:
- header-only的C++模板库
- 自动向量化与并行化
- 广泛用于机器人学和计算机视觉
SciPy稀疏模块:
- Python生态系统中的稀疏矩阵工具
- 提供迭代求解器和稀疏分解
15.4 分布式线性代数
ScaLAPACK:
- 面向分布式内存系统的LAPACK
- 矩阵块划分到不同处理器
- 适合超大规模问题
SLATE(Software for Linear Algebra Targeting Exascale):
- 下一代分布式线性代数库
- 针对百亿亿次计算设计
- 支持异构计算架构
十六、流形上的线性代数
16.1 Grassmann流形
Grassmann流形 是 中所有 维线性子空间构成的流形。
几何解释:
- (射影空间)
- (正交补)
- 的维度为
参数化:
通过基矩阵 (列线性无关),等价类:
使用正交基 消除歧义:
在机器学习中的应用:
- 子空间聚类
- 动作识别
- 字典学习
16.2 Stiefel流形
Stiefel流形 是 中所有正交 -标架的集合:
维度:
与Grassmann流形的关系:
这使得Stiefel流形是Grassmann流形的纤维丛。
优化上的应用:
约束优化问题 。
黎曼梯度下降:
其中 retraction 将切向量映射回流形。
16.3 对称正定矩阵流形
对称正定矩阵流形 :
黎曼度量(仿射不变度量):
黎曼梯度:
测地线:
其中 是切向量。
应用:
- 协方差矩阵插值(几何平均)
- 扩散张量成像(DTI)
- 雷达信号处理
16.4 流形优化算法
信赖域方法(Riemannian Trust Region):
约束 在切空间,。
共轭梯度法在流形上:
其中 是向量传输。
Barzilai-Borwein梯度下降:
两步版本:
十七、矩阵方程与 Sylvester 方程
17.1 Sylvester 方程
Sylvester方程:
其中 ,,, 是未知矩阵。
可解性条件:若 和 没有公共特征值,方程有唯一解。
Kronecker积形式:
其中 是Kronecker积, 是向量化算子。
17.2 Lyapunov 方程
连续时间 Lyapunov方程:
离散时间 Lyapunov方程:
在控制系统和信号处理中极为重要。
Bartels-Stewart算法:
- 计算 和 的Schur分解
- 将Lyapunov方程转化为三角形式
- 使用后向替换求解
复杂度 。
17.3 Riccati方程
代数Riccati方程:
连续时间版本。
代数Riccati方程:
离散时间版本。
解的性质:
Riccati方程的解 是对称矩阵。若 可稳且 可检,则存在唯一镇定解(半正定)。
在最优控制中的应用:
最优状态反馈: 最优代价:
17.4 张量方程初步
张量方程是矩阵方程的高阶推广。
CP分解形式的张量:
Tucker分解:
交替最小二乘(ALS): 固定其他因子,交替优化每个因子。
十八、随机矩阵进阶理论
18.1 Wigner矩阵的深度性质
Wigner矩阵 是对称随机矩阵:
其中 的上三角元素独立同分布,均值为0,方差为1。
全局谱行为:
半圆定律的精确形式:
局部 semicircle 定律:
在微观尺度下,需要去除平均到个体特征值。
去聚类(Delocalization):
所有特征向量近似均匀分布。
18.2 Marchenko-Pastur 定律详解
样本协方差矩阵:
当 ,。
Marchenko-Pastur分布:
若总体协方差 :
其中:
尖峰模型:
当总体协方差有少数特征值大于1时,对应MP谱中出现离群特征值。
金融协方差矩阵的应用
实际市场协方差矩阵的特征值分布:
- 大多数特征值遵循MP定律
- 少数”信号”特征值在支持外部
- 尖峰对应市场的共同运动模式
18.3 随机矩阵的极值理论
最大特征值的极限:
** Tracy-Widom 分布**:
标准化最大特征值:
是Tracy-Widom分布(精确形式复杂)。
应用:
- 假设检验:是否存在信号
- 阈值选择:PCA主成分个数
- 高维统计推断
18.4 Free概率论
自由概率论是经典概率论在矩阵/算子代数中的推广。
自由加法:
- 经典:独立随机变量 的和
- 自由:独立随机矩阵 的和
R-变换(类似于累积量生成函数):
S-变换(用于乘法):
在随机矩阵中的应用:
若 是Wigner矩阵且独立,则 的谱分布是自由卷积。
十九、约束优化与KKT理论
19.1 约束优化的分类
约束优化问题:
可行域:
约束 qualifications:
- 线性约束 qualifications(LICQ)
- 广义LICQ
- Mangasarian-Fromovitz qualifications(MFCQ)
19.2 KKT条件
KKT条件是一阶最优性的必要条件(适当正则条件下也是充分条件):
存在拉格朗日乘子 (等式)和 (不等式)使得:
互补松弛条件 表明:
- 若 (严格不等式),则 (非活跃约束)
- 若 (活跃约束),则
19.3 对偶理论
拉格朗日对偶函数:
对偶问题:
弱对偶性:
强对偶性:若满足约束 qualifications,。
Slater条件:存在严格可行点时,强对偶成立。
19.4 内点法
内点法是求解约束优化的重要方法。
障碍函数法:
通过障碍函数近似:
当 时,解趋近原问题的解。
路径追踪算法:
- 追踪中心路径
- 使用牛顿法求解障碍问题
- 复杂度 ( 是位数)
二十、矩阵完成与低秩恢复
20.1 矩阵补全问题
矩阵补全(Matrix Completion): 已知矩阵 的部分元素,恢复缺失元素。
NP-hard问题:秩最小化是组合优化。
20.2 核范数松弛
核范数松弛:
其中 是奇异值之和。
恢复条件:
若:
- 矩阵 秩为
- 采样是均匀随机的
- 样本复杂度
则高概率精确恢复。
20.3 不一致条件
不相干条件(Incoherence):
确保矩阵不在任何坐标方向上稀疏。
20.4 交替方向法
ADMM(Alternating Direction Method of Multipliers):
交替更新:
其中 是奇异值软阈值算子。
二十一、矩阵扰动理论与敏感性分析
21.1 特征值的扰动理论
Bauer-Fike定理:
若 可对角化,, 是扰动矩阵:
其中 是特征向量矩阵, 是矩阵范数。
Gershgorin圆盘定理:
每个特征值位于至少一个Gershgorin圆盘中:
扰动界限的精细化:
Weyl定理给出了特征值扰动的精确界限:
21.2 矩阵函数与条件数
矩阵函数 通过特征值定义为:
矩阵条件数:
对于线性方程组求解:
21.3 敏感性分析
范数灵敏性:
逆运算敏感性:
21.4 结构化扰动
对称扰动:保持对称性的扰动
非对称扰动:可能改变特征值结构
秩-1扰动:
在低秩更新和一阶近似中有重要应用。
二十二、特殊矩阵类与不等式
22.1 Hadamard积与 Khatri-Rao积
Hadamard积(元素wise乘积):
Hadamard积的不等式:
- Schur乘积定理:若 半正定,则 半正定
- Oppenheim不等式:
Khatri-Rao积(列wise Hadamard):
22.2 矩阵不等式
Poincaré分离定理:
Fischer不等式:
当分块矩阵对称正定时。
22.3 范数不等式
Holder不等式:
Schatten范数:
- :核范数(trace norm)
- :Frobenius范数
- :谱范数
22.4 矩阵单调性与凸性
Lowner-John定理:
唯一体积最小的椭球包含给定的凸体。
矩阵凸函数:
当 是矩阵凸函数时。
二十三、图与网络的矩阵表示
23.1 图的矩阵表示
邻接矩阵 :
拉普拉斯矩阵 :
- :度矩阵(对角矩阵,)
- 半正定
- 的特征值
符号拉普拉斯矩阵:
用于符号图(边有正负权)。
23.2 谱图理论
连通性与谱:
图的连通分量数等于 中零特征值的重数。
Cheeger不等式:
其中 是图的 Cheeger 常数。
23.3 网络分析中的矩阵
PageRank:
社区检测:
使用谱聚类检测社区。
23.4 图神经网络中的矩阵操作
消息传递:
图卷积:
二十四、量子计算中的线性代数
24.1 量子态的表示
量子比特(Qubit):
其中 。
多比特系统:
向量维度 。
24.2 量子门(酉矩阵)
单比特门:
- Hadamard:
- Pauli门:
- 相位门:
- 门
多比特门:
- CNOT(控制-非门)
- Toffoli门(CCNOT)
- SWAP门
24.3 量子测量
投影测量:
POVM测量:
24.4 量子算法中的线性代数
Grover算法:
- 振幅放大
- 加速
HHL算法(解线性方程组):
参考文献
- Strang, G. (2009). Introduction to Linear Algebra (4th ed.). Wellesley-Cambridge Press.
- Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.
- Horn, R. A., & Johnson, C. R. (2012). Matrix Analysis (2nd ed.). Cambridge University Press.
- Petersen, K. B., & Pedersen, M. S. (2012). The Matrix Cookbook. Technical University of Denmark.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
- Demmel, J. W. (1997). Applied Numerical Linear Algebra. SIAM.
- Saad, Y. (2003). Iterative Methods for Sparse Linear Systems (2nd ed.). SIAM.
- Trefethen, L. N., & Bau III, D. (1997). Numerical Linear Algebra. SIAM.
- Higham, N. J. (2002). Accuracy and Stability of Numerical Algorithms (2nd ed.). SIAM.
- Schölkopf, B., & Smola, A. J. (2002). Learning with Kernels. MIT Press.
- Absil, P.-A., Mahony, R., & Sepulchre, R. (2009). Optimization Algorithms on Matrix Manifolds. Princeton University Press.
- Edelman, A., Arias, T. A., & Smith, S. T. (1998). The geometry of algorithms with orthogonality constraints. SIAM J. Matrix Anal. Appl., 20(2), 303-353.
- Bai, Z., & Silverstein, J. W. (2010). Spectral Analysis of Large Dimensional Random Matrices (2nd ed.). Springer.
- Recht, B., Fazel, M., & Parrilo, P. A. (2010). Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization. SIAM Review, 52(3), 471-501.
- Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.
- Bhatia, R. (1997). Matrix Analysis. Springer.
- Stewart, G. W., & Sun, J. G. (1990). Matrix Perturbation Theory. Academic Press.
- Chung, F. R. K. (1997). Spectral Graph Theory. American Mathematical Society.
- Nielsen, M. A., & Chuang, I. L. (2010). Quantum Computation and Quantum Information (10th ed.). Cambridge University Press.
- Meyer, C. D. (2000). Matrix Analysis and Applied Linear Algebra. SIAM.