线性代数深度指南

文档概述

线性代数是现代数学与机器学习的基石。本指南从向量空间出发,系统涵盖矩阵运算与分解、特征值理论、最小二乘法以及矩阵微积分等核心内容,并深入探讨其在机器学习中的广泛应用。

关键词

序号关键词英文核心概念
1向量空间Vector Space
2Basis
3矩阵分解Matrix Decomposition
4特征值Eigenvalue
5特征向量Eigenvector满足 的非零向量
6正交性Orthogonality
7最小二乘Least Squares
8矩阵微积分Matrix Calculus
9SVDSingular Value Decomposition
10正定矩阵Positive Definite
11Trace
12行列式Determinant

一、向量空间与基

1.1 向量空间的定义

向量空间(或线性空间) 是定义在域 (通常为 )上的集合,配备两种运算:

  • 向量加法 对所有
  • 标量乘法 对所有

必须满足8条公理:结合律、交换律、零向量存在、加法逆元、标量乘法对向量加法的分配律、标量乘法对标量加法的分配律、标量乘法结合律、标量乘法单位元。

是最常见的向量空间:所有 维实向量的集合。

1.2 子空间、基与维数

子空间:向量空间 的子集 若对加法和标量乘法封闭,则称 的子空间。

张成空间:向量组 的张成空间定义为:

线性无关:若 蕴含所有 ,则向量组线性无关。

:线性无关且张成整个空间的向量组。基中向量的个数称为维数

标准基 的标准基为

基变换示例

向量 在标准基下的坐标即为 。但在基 下,,坐标为

1.3 内积空间

内积是向量空间上的双线性函数 ,满足:

  1. 共轭对称性:
  2. 线性性:
  3. 正定性:,且等号成立当且仅当

中,标准内积为

范数由内积导出:


二、矩阵运算与分解

2.1 矩阵基本运算

  • 乘法,结果为 矩阵
  • 转置
  • (仅当 可逆,即

行列式的性质:

  • 可逆当且仅当

,满足循环性质

2.2 LU分解

LU分解将矩阵分解为下三角矩阵 和上三角矩阵 的乘积:

其中 是单位下三角矩阵(对角线元素为1), 是上三角矩阵。

LU分解在求解线性方程组 时极为高效:

  1. 前向替换: 求解
  2. 后向替换: 求解

带行交换的LU分解(PA = LU):为保证数值稳定性,实际计算中通常引入置换矩阵

2.3 QR分解

QR分解将矩阵分解为正交矩阵 和上三角矩阵

其中 满足 (列正交), 为上三角。

QR分解的计算方法:

  • Gram-Schmidt正交化
  • Householder变换(数值更稳定)
  • Givens旋转

2.4 奇异值分解(SVD)

奇异值分解是矩阵最重要的分解形式之一,适用于任意 矩阵:

其中:

  • 是正交矩阵( 的左奇异向量)
  • 是对角矩阵,对角线元素为奇异值
  • 是正交矩阵( 的右奇异向量)
  • 是矩阵的秩

几何意义:SVD将线性变换分解为旋转→缩放→旋转三个步骤。奇异值 表示在各正交方向上的伸缩因子。

SVD与特征值的关系

  • ,故 的特征值是
  • ,故 的特征值也是
  • 对称正定(),则奇异值就是特征值的绝对值

2.5 谱分解(特征分解)

对于可对角化矩阵 (有 个线性无关特征向量):

其中 的列是特征向量, 是对角特征值矩阵。

实对称矩阵的特殊情况(谱定理):

其中 是正交矩阵,特征值均为实数。


三、特征值与特征向量

3.1 定义与基本性质

特征值 特征向量 满足:

特征方程(特征多项式):

特征值的基本性质:

  • (特征值的乘积)
  • (特征值的和)

3.2 特征向量的几何意义

特征向量 满足: 方向上的作用只是简单的缩放,缩放因子为特征值

  • :向量被拉伸
  • :向量被压缩
  • :向量反向
  • :向量仅旋转(正交矩阵的情况)

幂迭代:给定矩阵 ,反复计算 会收敛到主特征向量(对应最大特征值的特征向量)。

3.3 矩阵的迹与幂

Cayley-Hamilton定理:任意方阵满足其特征多项式:

这意味着 可以表示为 的线性组合,这在某些矩阵计算中非常有用。

矩阵指数

矩阵指数在微分方程 的求解中起关键作用:


四、正交性与最小二乘

4.1 正交与正交矩阵

正交向量 正交当且仅当

正交矩阵 满足

正交矩阵的性质:

  • (保范数)
  • (保内积)

4.2 正交投影

向量 到子空间 的列空间)的正交投影为:

投影矩阵:,满足 (幂等性)和 (对称性)。

Gram-Schmidt正交化:将线性无关向量组 转化为正交向量组

4.3 最小二乘法

最小二乘问题

解满足正规方程(Normal Equations):

解为 (当 可逆时)。

几何意义 使得 列空间上的正交投影。

数值稳定的求解方法

直接求解正规方程 数值不稳定(条件数平方)。推荐使用:

  1. QR分解:,则
  2. SVD:(当 病态时最稳定)

4.4 约束最小二乘

正则化最小二乘(岭回归):

解为

正则化的作用:

  • 病态时, 改善条件数
  • 引入偏差换取方差减小(偏差-方差权衡)
  • 时,解不会发散

五、矩阵微积分

5.1 矩阵导数的定义

标量对向量求导

向量对向量求导(Jacobian):

5.2 常用矩阵求导公式

函数导数
对称)
$\A\mathbf{x} - \mathbf{b}\
对称正定)

5.3 二阶导数与Hessian矩阵

Hessian矩阵:标量函数 的二阶导数:

Hessian矩阵的性质:

  • 二阶连续可微,Hessian是对称的
  • 凸函数的Hessian是半正定的
  • 临界点(梯度为零)处的Hessian决定了极值性质

六、线性代数在机器学习中的应用

6.1 主成分分析(PCA)

PCA通过SVD寻找数据方差最大的正交方向(主成分)。

设数据矩阵 个样本, 维特征),数据中心化为

协方差矩阵:

PCA步骤:

  1. 计算 的特征值分解或 的SVD:
  2. 选择前 个最大特征值对应的特征向量
  3. 投影数据到这 维子空间

PCA的SVD视角

,则 。因此 的列(左奇异向量)正是 的特征向量,即PCA的主成分方向。奇异值 与特征值的关系为

6.2 线性回归与广义线性模型

线性回归:

最小二乘解:

Logistic回归:

通过梯度下降优化,参数更新:

6.3 奇异值分解的降维应用

截断SVD:保留最大的 个奇异值:

在Frobenius范数意义下的最优 秩逼近(Eckart-Young定理):

这在推荐系统(如矩阵分解)和图像压缩中有重要应用。

6.4 神经网络中的线性代数

深度学习中的核心计算都是矩阵运算:

  • 前向传播
  • 反向传播:通过链式法则计算梯度,本质是雅可比矩阵的乘积
  • 注意力机制

GPU的并行计算能力正是源于其对大规模矩阵运算的高效支持。


参考文献

  1. Strang, G. (2009). Introduction to Linear Algebra (4th ed.). Wellesley-Cambridge Press.
  2. Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.
  3. Horn, R. A., & Johnson, C. R. (2012). Matrix Analysis (2nd ed.). Cambridge University Press.
  4. Petersen, K. B., & Pedersen, M. S. (2012). The Matrix Cookbook. Technical University of Denmark.
  5. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

相关文档