概率论深度指南

文档概述

本文档系统梳理概率论的核心知识体系，涵盖从公理化基础到高级概率分布族的完整理论框架，为机器学习与人工智能研究提供坚实的数学基础。

关键词

序号	关键词	英文	核心概念
1	概率空间	Probability Space	$(Ω, F, P)$
2	随机变量	Random Variable	$X : Ω \to R$
3	条件概率	Conditional Probability	$P (A ∥ B) = \frac{P ( A \cap B )}{P ( B )}$
4	贝叶斯定理	Bayes’ Theorem	$P (θ ∥ X) = \frac{P ( X ∥ θ ) P ( θ )}{P ( X )}$
5	期望值	Expectation	$E [X] = \int x d F (x)$
6	方差	Variance	$Var (X) = E [(X - μ)^{2}]$
7	协方差	Covariance	$Cov (X, Y) = E [(X - μ_{X}) (Y - μ_{Y})]$
8	大数定律	Law of Large Numbers	$\overset{ˉ}{X}_{n} \to E [X]$
9	中心极限定理	Central Limit Theorem	$\frac{X ˉ _{n} - μ}{σ / n} \to N (0, 1)$
10	指数族	Exponential Family	$p (x ∥ θ) = h (x) exp (η (θ)^{T} T (x) - A (θ))$
11	共轭先验	Conjugate Prior	Beta-Binomial, Dirichlet-Multinomial
12	测度论	Measure Theory	Lebesgue积分基础

一、概率空间与公理化体系

1.1 概率论的三元组结构

现代概率论建立在测度论的基础之上，采用公理化方法构建完整的理论体系。概率空间由三元组 $(Ω, F, P)$ 定义，这一结构将随机现象的形式化描述提升到了严格的数学高度。

样本空间 $Ω$ 表示所有可能基本结果的集合。例如，抛掷一枚均匀硬币的样本空间为 $Ω = {H, T}$ ，其中 $H$ 表示正面， $T$ 表示反面。在连续情形下，掷骰子的样本空间为 $Ω = {1, 2, 3, 4, 5, 6}$ 。对于连续随机变量，样本空间通常是 $R^{n}$ 的子集。

σ-代数 $F$ （也称σ-域）是样本空间上满足特定条件的子集族。 $F$ 必须满足：

$\emptyset \in F$ （包含空集）
若 $A \in F$ ，则 $A^{c} \in F$ （对补运算封闭）
若 $A_{1}, A_{2}, \dots \in F$ ，则 $⋃_{i = 1}^{\infty} A_{i} \in F$ （对可数并封闭）

σ-代数的引入是为了定义可测集，从而确保概率可以良定义地赋予每个事件。Borel σ-代数 $B (R)$ 是实数轴上最重要的σ-代数，由所有开区间生成。

概率测度 $P : F \to [0, 1]$ 满足Kolmogorov公理：

非负性：对任意 $A \in F$ ， $P (A) \geq 0$
归一性： $P (Ω) = 1$
可数可加性：若 $A_{1}, A_{2}, \dots$ 两两不相交，则 $P (⋃_{i = 1}^{\infty} A_{i}) = \sum_{i = 1}^{\infty} P (A_{i})$

古典概型的概率计算

若样本空间有 $n$ 个等可能基本结果，事件 $A$ 包含 $k$ 个基本结果，则 $P (A) = \frac{k}{n}$ 。例如，从52张扑克牌中抽取一张，抽到红心的概率为 $\frac{13}{52} = \frac{1}{4}$ 。

1.2 条件概率与乘法公式

在已知部分信息的情况下更新概率估计，是概率论应用于统计推断的核心操作。条件概率定义为：

$P (A ∣ B) = \frac{P ( A \cap B )}{P ( B )}, P (B) > 0$

这一公式的几何直观是：在事件 $B$ 发生的条件下， $A$ 发生的概率等于 $A \cap B$ 在 $B$ 中所占的比例。

由条件概率公式可直接导出乘法公式：

$P (A \cap B) = P (A ∣ B) \cdot P (B) = P (B ∣ A) \cdot P (A)$

对于多个事件，链式法则给出：

$P (A_{1} \cap A_{2} \cap \dots \cap A_{n}) = P (A_{1}) \cdot P (A_{2} ∣ A_{1}) \cdot P (A_{3} ∣ A_{1} \cap A_{2}) \dots P (A_{n} ∣ A_{1} \cap \dots \cap A_{n - 1})$

独立性检验

事件 $A$ 与 $B$ 相互独立当且仅当 $P (A \cap B) = P (A) \cdot P (B)$ 。若 $P (B) > 0$ ，这等价于 $P (A ∣ B) = P (A)$ 。独立性是概率论中最强的非平凡假设之一，在实际建模中需要谨慎验证。

二、贝叶斯定理与统计推断基础

2.1 贝叶斯定理的导出

贝叶斯定理是概率论中最为重要的公式之一，它建立了先验知识与观测数据之间的桥梁。由条件概率的定义出发：

$P (A ∣ B) = \frac{P ( A \cap B )}{P ( B )} = \frac{P ( B ∣ A ) \cdot P ( A )}{P ( B )}$

展开全概率公式中的 $P (B)$ ：

$P (B) = P (B ∣ A) \cdot P (A) + P (B ∣ A^{c}) \cdot P (A^{c})$

得到贝叶斯定理的标准形式：

$P (A ∣ B) = \frac{P ( B ∣ A ) \cdot P ( A )}{P ( B ∣ A ) \cdot P ( A ) + P ( B ∣ A ^{c} ) \cdot P ( A ^{c} )}$

在统计学的参数估计语境下，贝叶斯定理写作：

$P (θ ∣ X) = \frac{P ( X ∣ θ ) \cdot P ( θ )}{P ( X )}$

其中：

$P (θ)$ 是先验概率（Prior），编码了参数 $θ$ 的先验知识
$P (X ∣ θ)$ 是似然函数（Likelihood），表示在参数 $θ$ 下观测到数据 $X$ 的概率
$P (θ ∣ X)$ 是后验概率（Posterior），是在观测数据 $X$ 后对参数 $θ$ 的更新认知
$P (X)$ 是边际似然（Marginal Likelihood），作为归一化常数确保后验分布积分为1

2.2 贝叶斯推断的哲学意义

贝叶斯方法的核心思想是：学习是一个迭代的过程。观测数据不断更新我们对世界的认知，而先验分布则编码了历史经验和领域知识。这种”先验→数据→后验”的范式与人类认知过程高度一致。

在机器学习中，贝叶斯方法的优势体现在：

不确定性量化：后验分布本身包含了关于参数的完整不确定性信息
正则化效应：先验分布防止过拟合，尤其在数据稀缺时效果显著
模型选择：边际似然可以自然地进行模型比较

计算挑战

对于复杂模型，后验分布 $P (θ ∣ X)$ 通常没有解析形式。常用近似方法包括：马尔可夫链蒙特卡洛（MCMC）、变分推断（VI）、拉普拉斯近似等。

三、随机变量与概率分布

3.1 离散随机变量

设 $X$ 是定义在概率空间 $(Ω, F, P)$ 上的随机变量，若 $X$ 只取有限或可数无限个值，则称为离散随机变量。概率质量函数（PMF）定义为 $p (x) = P (X = x)$ ，满足 $p (x) \geq 0$ 和 $\sum_{x} p (x) = 1$ 。

伯努利分布 $X \sim Bernoulli (p)$ ： $p (0) = 1 - p, p (1) = p$

二项分布 $X \sim Binomial (n, p)$ ： $P (X = k) = (k n) p^{k} (1 - p)^{n - k}, k = 0, 1, \dots, n$

泊松分布 $X \sim Poisson (λ)$ ： $P (X = k) = \frac{λ ^{k} e ^{- λ}}{k !}, k = 0, 1, 2, \dots$

泊松分布是二项分布的极限形式，当 $n$ 很大、 $p$ 很小时， $Binomial (n, p) \approx Poisson (n p)$ 。这使得泊松分布在稀有事件建模（如网站访问、放射性衰变）中极为有用。

3.2 连续随机变量

概率密度函数（PDF） $f (x)$ 满足：

$f (x) \geq 0$ 对所有 $x \in R$
$\int_{- \infty}^{\infty} f (x) d x = 1$
$P (a \leq X \leq b) = \int_{a}^{b} f (x) d x$

累积分布函数（CDF）定义为 $F (x) = P (X \leq x) = \int_{- \infty}^{x} f (t) d t$ 。

正态分布（高斯分布） $X \sim N (μ, σ^{2})$ ： $f (x) = \frac{1}{2 π σ ^{2}} exp (- \frac{( x - μ ) ^{2}}{2 σ ^{2}})$

正态分布在概率论中占据核心地位，其重要性由中心极限定理保证。

指数分布 $X \sim Exp (λ)$ ： $f (x) = λ e^{- λ x}, x \geq 0$

指数分布具有无记忆性： $P (X > s + t ∣ X > s) = P (X > t)$ ，这使其成为描述等待时间的自然选择。

拉普拉斯分布 $X \sim Laplace (μ, b)$ ： $f (x) = \frac{1}{2 b} exp (- \frac{∣ x - μ ∣}{b})$

拉普拉斯分布在机器学习中常作为稀疏模型的先验分布（对应L1正则化）。

四、数字特征：期望、方差、协方差

4.1 期望值

离散情形： $E [X] = \sum_{x} x \cdot p (x)$

连续情形： $E [X] = \int_{- \infty}^{\infty} x \cdot f (x) d x$

期望算子具有线性性： $E [a X + bY] = a E [X] + b E [Y]$ ，这一性质在推导统计量性质时极为重要。

条件期望 $E [X ∣ Y]$ 是 $Y$ 的函数，定义为： $E [X ∣ Y = y] = \int x \cdot f_{X ∣ Y} (x ∣ y) d x$

条件期望具有”tower property”（塔性质）： $E [X] = E [E [X ∣ Y]]$

这一性质是迭代期望定理的核心，在处理分层数据和缺失数据时非常有用。

4.2 方差与标准差

方差衡量随机变量偏离其均值的程度： $Var (X) = E [(X - E [X])^{2}] = E [X^{2}] - (E [X])^{2}$

标准差 $σ = Var (X)$ 与原变量量纲相同，更易解释。

对于独立随机变量 $X$ 和 $Y$ ： $Var (X + Y) = Var (X) + Var (Y)$

方差不是线性的，这是与期望的根本区别。

4.3 协方差与相关系数

协方差衡量两个随机变量的联合变异程度： $Cov (X, Y) = E [(X - E [X]) (Y - E [Y])] = E [X Y] - E [X] E [Y]$

相关系数是协方差的归一化版本： $ρ_{X Y} = \frac{Cov ( X , Y )}{Var ( X ) \cdot Var ( Y )}$

相关系数 $ρ_{X Y} \in [- 1, 1]$ ，其中 $ρ = \pm 1$ 意味着完全线性相关， $ρ = 0$ 意味着不相关（但不一定独立！）。

相关与独立

独立必然导致不相关，但不相关不一定独立。例如，若 $X \sim Uniform (- 1, 1)$ 且 $Y = X^{2}$ ，则 $Cov (X, Y) = 0$ 但 $X$ 与 $Y$ 显然不独立。

4.4 协方差矩阵

对于 $d$ 维随机向量 $X = (X_{1}, X_{2}, \dots, X_{d})^{T}$ ，协方差矩阵定义为： $Σ = Cov (X) = E [(X - μ) (X - μ)^{T}]$

协方差矩阵是半正定对称矩阵，其特征值非负，在机器学习的很多算法（如PCA、主成分分析）中起核心作用。

五、极限定理

5.1 大数定律

弱大数定律（辛钦大数定律）：设 $X_{1}, X_{2}, \dots$ 是独立同分布的随机变量， $E [X_{i}] = μ$ 存在，则： $\frac{1}{n} \sum_{i = 1}^{n} X_{i} P μ 当 n \to \infty$

即样本均值依概率收敛到总体均值。

强大数定律：在相同条件下，样本均值几乎必然收敛到 $μ$ ： $\frac{1}{n} \sum_{i = 1}^{n} X_{i} a.s. μ 当 n \to \infty$

大数定律是蒙特卡洛方法的理论基础：可以通过大量随机采样的均值来估计期望值。

5.2 中心极限定理

中心极限定理（CLT）是概率论中最令人惊叹的结果之一：

设 $X_{1}, X_{2}, \dots$ 是独立同分布的随机变量， $E [X_{i}] = μ$ ， $Var (X_{i}) = σ^{2} < \infty$ ，则： $lim_{n \to \infty} P (\frac{X ˉ _{n} - μ}{σ / n} \leq x) = Φ (x)$

其中 $Φ (x)$ 是标准正态分布的累积分布函数。

CLT的深远意义

无论原始分布是什么（只要方差有限），标准化后的样本均值都趋近于正态分布。这解释了为什么正态分布在自然界中如此普遍——大量微小独立因素叠加的结果就是正态分布。CLT也是统计推断的理论基础：置信区间、假设检验等都依赖于正态性假设。

六、概率分布族

6.1 指数族分布

指数族是机器学习中最重要的分布族，其统一形式为： $p (x ∣ θ) = h (x) exp (η (θ)^{T} T (x) - A (θ))$

其中：

$h (x)$ 是基础测度（不依赖参数）
$η (θ)$ 是自然参数
$T (x)$ 是充分统计量
$A (θ)$ 是对数配分函数（确保归一化）

指数族的重要成员包括：

正态分布 $N (μ, σ^{2})$
伯努利分布 $Bernoulli (p)$
二项分布 $Binomial (n, p)$
泊松分布 $Poisson (λ)$
Gamma分布 $Gamma (α, β)$
Beta分布 $Beta (α, β)$
Dirichlet分布 $Dirichlet (α)$

指数族具有以下优良性质：

充分统计量：数据可以用固定维度的充分统计量压缩
共轭先验存在：便于贝叶斯推断
对数凸性：便于优化
梯度结构简单： $\nabla_{θ} A (θ) = E [T (x)]$

6.2 共轭先验

在贝叶斯推断中，若先验分布 $p (θ)$ 与似然函数 $p (x ∣ θ)$ 的乘积正比于同一分布族，则称该先验为共轭先验。共轭先验使得后验分布具有解析形式，避免了复杂的数值计算。

似然分布	共轭先验	后验参数更新
Bernoulli( $p$ )	Beta( $α, β$ )	$α^{'} = α + x, β^{'} = β + 1 - x$
Binomial( $n, p$ )	Beta( $α, β$ )	$α^{'} = α + k, β^{'} = β + n - k$
Poisson( $λ$ )	Gamma( $α, β$ )	$α^{'} = α + x, β^{'} = β + 1$
Normal( $μ, σ^{2}$ )（ $σ^{2}$ 已知）	Normal( $μ_{0}, σ_{0}^{2}$ )	后验仍为正态

Beta-Bernoulli共轭

设先验 $p \sim Beta (α, β)$ ，观测数据 $x_{1}, \dots, x_{n} \sim Bernoulli (p)$ ，则后验： $p ∣ x_{1}, \dots, x_{n} \sim Beta (α + \sum x_{i}, β + n - \sum x_{i})$ 后验均值 $\frac{α + \sum x _{i}}{α + β + n}$ 是先验均值 $\frac{α}{α + β}$ 与样本均值 $\frac{\sum x _{i}}{n}$ 的加权平均。

七、多元概率分布

7.1 多元正态分布

多元正态分布（也称多元高斯分布）是概率论中最重要的多元分布，在统计推断和机器学习中无处不在。

设随机向量 $X = (X_{1}, \dots, X_{d})^{T}$ 服从 $d$ 维正态分布，记作 $X \sim N (μ, Σ)$ ，其概率密度函数为：

$f (x) = \frac{1}{( 2 π ) ^{d /2} ∣Σ ∣ ^{1/2}} exp (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))$

其中：

$μ \in R^{d}$ 是均值向量
$Σ \in R^{d \times d}$ 是协方差矩阵，必须是正定对称矩阵
$∣Σ∣$ 和 $Σ^{- 1}$ 分别表示行列式和逆矩阵

多元正态分布的性质：

线性变换：若 $X \sim N (μ, Σ)$ ， $Y = A X + b$ ，则： $Y \sim N (A μ + b, A Σ A^{T})$
边缘分布：任意子向量的边缘分布仍是正态分布。
条件分布：条件分布 $X_{1} ∣ X_{2} = x_{2}$ 也是正态分布： $X_{1} ∣ X_{2} = x_{2} \sim N (μ_{1∣2}, Σ_{1∣2})$

其中： $μ_{1∣2} = μ_{1} + Σ_{12} Σ_{22}^{- 1} (x_{2} - μ_{2})$ $Σ_{1∣2} = Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21}$

这在高斯过程和卡尔曼滤波中极为重要。
独立性： $X$ 的各分量相互独立当且仅当 $Σ$ 是对角矩阵。

协方差矩阵的分解

协方差矩阵 $Σ$ 可以进行多种分解：

Cholesky分解： $Σ = L L^{T}$ （ $L$ 下三角）

特征分解： $Σ = Q Λ Q^{T}$ （ $Q$ 正交， $Λ$ 对角）

这些分解在采样（如高斯过程）和计算（如贝叶斯推断）中非常重要

7.2 多元分布的数字特征

均值向量： $μ = E [X] = (E [X_{1}], \dots, E [X_{d}])^{T}$

协方差矩阵： $Σ = Cov (X) = E [(X - μ) (X - μ)^{T}]$

协方差矩阵的性质：

对称半正定： $a^{T} Σ a = Var (a^{T} X) \geq 0$
$tr (Σ) = \sum_{i} Var (X_{i})$ 是总体方差
$∣Σ∣$ 衡量多元数据的”散布程度”

相关系数矩阵 $ρ$ ： $ρ_{ij} = \frac{Σ _{ij}}{Σ _{ii} Σ _{jj}}$

相关系数矩阵是对称的且对角线元素为1。

协方差与相关系数的关系： $Cov (a X + b, c Y + d) = a c \cdot Cov (X, Y)$ $ρ (a X + b, c Y + d) = sign (a c) \cdot ρ (X, Y)$

7.3 多元条件分布与贝叶斯网络

在多元概率模型中，条件独立性是一个核心概念。

条件独立性：给定 $Z$ ， $X$ 与 $Y$ 条件独立，记作 $X ⊥ Y ∣ Z$ ，当且仅当： $P (X, Y ∣ Z) = P (X ∣ Z) P (Y ∣ Z)$

高斯条件分布的递归结构：

设 $X = (X_{1}, \dots, X_{d})^{T}$ 服从多元正态分布。联合分布可以分解为： $P (X) = P (X_{1}) P (X_{2} ∣ X_{1}) P (X_{3} ∣ X_{1}, X_{2}) \dots P (X_{d} ∣ X_{1}, \dots, X_{d - 1})$

这种分解在高斯马尔可夫随机场和线性动态系统中至关重要。

Precision矩阵（协方差矩阵的逆） $Λ = Σ^{- 1}$ ：

精度矩阵在图模型中扮演核心角色。若 $Λ_{ij} = 0$ （ $i \neq = j$ ），则 $X_{i} ⊥ X_{j} ∣ 其他$ 。

这建立了高斯图模型与稀疏逆协方差估计之间的联系（Graphical Lasso算法）。

7.4 混合分布

高斯混合模型（GMM）： $P (x) = \sum_{k = 1}^{K} π_{k} N (x ∣ μ_{k}, Σ_{k})$

其中 $π_{k}$ 是混合权重，满足 $\sum_{k} π_{k} = 1$ 。

GMM的应用：

聚类分析：每个成分对应一个聚类
密度估计：灵活的密度逼近
数据生成：从混合分布采样

EM算法求解GMM：

E步：计算每个数据点属于各成分的后验概率 $P (z_{i} = k ∣ x_{i}) = \frac{π _{k} N ( x _{i} ∣ μ _{k} , Σ _{k} )}{\sum _{j} π _{j} N ( x _{i} ∣ μ _{j} , Σ _{j} )}$

M步：更新参数 $μ_{k} = \frac{\sum _{i} γ _{ik} x _{i}}{\sum _{i} γ _{ik}}, Σ_{k} = \frac{\sum _{i} γ _{ik} ( x _{i} - μ _{k} ) ( x _{i} - μ _{k} ) ^{T}}{\sum _{i} γ _{ik}}$

其中 $γ_{ik} = P (z_{i} = k ∣ x_{i})$ 是后验概率。

八、随机过程基础

8.1 随机过程的基本概念

随机过程是随时间（或空间）索引的随机变量族： ${X (t) : t \in T}$

若 $T$ 是离散集合（如 $N$ ），称为离散时间随机过程
若 $T$ 是连续集合（如 $R^{+}$ ），称为连续时间随机过程

样本轨道：固定一次实现 $X (\cdot, ω)$ ，得到一条确定性函数。

有限维分布族：对任意 $t_{1}, \dots, t_{n} \in T$ ， $(X (t_{1}), \dots, X (t_{n}))$ 的联合分布。

Kolmogorov延拓定理表明，有限维分布族决定随机过程（存在性）。

8.2 平稳过程

严平稳过程（Strictly Stationary）： ${X (t)} 满足 (X (t_{1}), \dots, X (t_{n})) = d (X (t_{1} + τ), \dots, X (t_{n} + τ)), \forall τ$

即联合分布在时间平移下不变。

宽平稳过程（Weakly Stationary / Second-order Stationary）： $E [X (t)] = μ （常数）$ $Cov (X (t), X (s)) = γ (t - s) （仅依赖时间差）$

宽平稳性是实际应用中更常用的假设，因为只需假设一阶和二阶矩存在。

自协方差函数 $γ (h) = Cov (X (t), X (t + h))$ ：

$γ (0) = Var (X (t))$ 是方差
$γ (- h) = γ (h)$ （对称性）
$∣ γ (h) ∣ \leq γ (0)$
$γ$ 是非负定的

8.3 马尔可夫链

马尔可夫性质：给定当前状态，未来与过去条件独立： $P (X_{n + 1} = j ∣ X_{n} = i, X_{n - 1}, \dots) = P (X_{n + 1} = j ∣ X_{n} = i) = p_{ij}$

转移概率矩阵 $P$ ： $P_{ij} = P (X_{n + 1} = j ∣ X_{n} = i)$

$P$ 是随机矩阵（每行和为1）。

Chapman-Kolmogorov方程： $P^{(m + n)} = P^{(m)} P^{(n)}$

即从状态 $i$ 到状态 $j$ 的 $m + n$ 步转移概率等于中间所有可能状态的 $m$ 步和 $n$ 步概率之和。

平稳分布 $π$ ： $π = π P, \sum_{i} π_{i} = 1$

若马尔可夫链是不可约且非周期的，则平稳分布存在且唯一（遍历定理）。

8.4 泊松过程

泊松过程是描述稀有事件发生次数的随机过程。

定义1（计数过程视角）： $N (t)$ 表示时间 $[0, t]$ 内事件发生的次数，满足：

$N (0) = 0$
独立增量： $N (t + s) - N (t)$ 与之前独立
平稳增量：增量分布仅依赖时间长度
$P (N (h) = 1) = λh + o (h)$
$P (N (h) \geq 2) = o (h)$

泊松分布： $N (t) \sim Poisson (λ t)$ $P (N (t) = k) = \frac{( λ t ) ^{k} e ^{- λ t}}{k !}$

定义2（到达时间视角）：到达时间 $τ_{1}, τ_{2}, \dots$ 满足：

间隔时间 $S_{i} = τ_{i} - τ_{i - 1}$ 独立同分布
$S_{i} \sim Exp (λ)$ （指数分布）

指数分布与泊松过程的关系：

指数分布具有无记忆性： $P (T > s + t ∣ T > s) = P (T > t)$
到达间隔的指数分布是泊松过程的等价定义

泊松过程的叠加与稀释：

独立的泊松过程叠加仍是泊松过程，参数相加
稀疏化（独立伯努利采样）得到稀释泊松过程

泊松过程的应用场景

电话呼叫中心：来电到达

放射性衰变：粒子发射

网站访问：HTTP请求

交通流：车辆到达

九、收敛性与极限定理深入

9.1 收敛模式的完整刻画

概率论中有四种主要的收敛模式：

依概率收敛 $X_{n} P X$ ： $\forall ϵ > 0, lim_{n \to \infty} P (∣ X_{n} - X ∣ > ϵ) = 0$

几乎必然收敛 $X_{n} a . s . X$ ： $P (lim_{n \to \infty} X_{n} = X) = 1$

依分布收敛 $X_{n} d X$ ： $lim_{n \to \infty} F_{X_{n}} (x) = F_{X} (x) 在 F_{X} 的连续点上$

依均值 $L^{p}$ 收敛 $X_{n} L^{p} X$ ： $lim_{n \to \infty} E [∣ X_{n} - X ∣^{p}] = 0$

收敛模式的层次关系：

$X_{n} a . s . X \Rightarrow X_{n} P X \Rightarrow X_{n} d X$

$X_{n} L^{p} X \Rightarrow X_{n} P X$

但以上蕴含关系在反方向一般不成立。

收敛的反例

依分布收敛但不依概率收敛：设 $X_{n}$ 以概率 $1/ n$ 等于 $n$ ，以概率 $1 - 1/ n$ 等于 0。则 $X_{n} d 0$ ，但 $X_{n} P 0$ 不成立。

依概率收敛但不几乎必然收敛：构造依赖独立事件的序列，使得收敛在每个固定点上都不发生。

9.2 Borel-Cantelli引理

Borel-Cantelli引理是分析”事件无限发生”的关键工具。

第一引理：若 $\sum_{n} P (A_{n}) < \infty$ ，则 $P (A_{n} i.o.) = 0$ 。

第二引理：若 ${A_{n}}$ 相互独立且 $\sum_{n} P (A_{n}) = \infty$ ，则 $P (A_{n} i.o.) = 1$ 。

强大数定律的证明思路

Borel-Cantelli引理是证明强大数定律的关键工具。由独立性和适当的尾部估计可得： $P (\frac{S _{n}}{n} - μ > ϵ i.o.) = 0$ 这正是强大数定律的结论。

9.3 中心极限定理的深入分析

林德伯格-费勒中心极限定理：

设 ${X_{n}}$ 是独立但不一定同分布的随机变量，满足：

$E [X_{i}] = μ_{i}$ ， $Var (X_{i}) = σ_{i}^{2}$
林德伯格条件：对任意 $ϵ > 0$ ， $lim_{n \to \infty} \frac{1}{s _{n}^{2}} \sum_{i = 1}^{n} E [(X_{i} - μ_{i})^{2} \cdot 1_{{∣ X_{i} - μ_{i} ∣ > ϵ s_{n}}}] = 0$ 其中 $s_{n}^{2} = \sum_{i = 1}^{n} σ_{i}^{2}$

则： $\frac{1}{s _{n}} \sum_{i = 1}^{n} (X_{i} - μ_{i}) d N (0, 1)$

林德伯格条件的意义：没有单个观测值对总和的方差贡献过大。这推广了独立同分布CLT到异方差情形。

李雅普诺夫定理：若存在 $δ > 0$ 使 $lim_{n \to \infty} \frac{1}{s _{n}^{2 + δ}} \sum_{i = 1}^{n} E [∣ X_{i} - μ_{i} ∣^{2 + δ}] = 0$

则CLT成立。 Lyapunov条件是林德伯格条件的充分条件。

9.4 重对数律

重对数律给出了部分和波动范围的精确刻画，比大数定律更细致。

科尔莫戈罗夫重对数律：

设 ${X_{n}}$ 独立同分布， $E [X_{i}] = 0$ ， $Var (X_{i}) = σ^{2}$ ，则： $lim sup_{n \to \infty} \frac{S _{n}}{2 σ ^{2} n l o g l o g n} = 1 a.s.$ $lim inf_{n \to \infty} \frac{S _{n}}{2 σ ^{2} n l o g l o g n} = - 1 a.s.$

Hartman-Wintner重对数律：

仅需 $E [X_{i}] = 0$ ， $Var (X_{i}) = 1$ ，且 ${X_{n}}$ 是独立的（有界方差）。

十、随机微积分初步

10.1 布朗运动

布朗运动（Wiener过程） ${B (t), t \geq 0}$ 是连续时间随机过程的基础构建块。

定义：

$B (0) = 0$
独立增量： $B (t + s) - B (t) \sim N (0, s)$
轨道连续

布朗运动的性质：

$B (t)$ 是严平稳过程
$E [B (t)] = 0$ ， $Var (B (t)) = t$
协方差： $Cov (B (s), B (t)) = min (s, t)$
路径处处不可微（几乎必然）

二次变差： $[B]_{t} = lim_{∣Π∣ \to 0} \sum_{i = 1}^{n} (B (t_{i}) - B (t_{i - 1}))^{2} = t a.s.$

这是伊藤积分理论的基础。

10.2 伊藤积分

伊藤积分是针对布朗运动的随机积分定义。

设 $H (t)$ 是适应过程（ $t$ 时刻的信息仅依赖于 $t$ 之前），定义： $\int_{0}^{t} H (s) d B (s) = lim_{∣Π∣ \to 0} \sum_{i = 1}^{n} H (t_{i - 1}) (B (t_{i}) - B (t_{i - 1}))$

关键区别于普通微积分：被积函数在区间的左端点取值。

伊藤积分的性质：

线性性
鞅性： $E [\int_{0}^{t} H (s) d B (s)] = 0$
等距性： $E [(\int_{0}^{t} H (s) d B (s))^{2}] = E [\int_{0}^{t} H (s)^{2} d s]$

10.3 伊藤引理

伊藤引理是随机微积分中的链式法则：

设 $X (t) = X (0) + \int_{0}^{t} μ (s) d s + \int_{0}^{t} σ (s) d B (s)$ ，即： $d X (t) = μ (t) d t + σ (t) d B (t)$

若 $f$ 是二次连续可微函数，则： $df (X (t)) = f^{'} (X (t)) d X (t) + \frac{1}{2} f^{''} (X (t)) (d X (t))^{2}$

其中 $(d t)^{2} = 0$ ， $d t \cdot d B (t) = 0$ ， $(d B (t))^{2} = d t$ 。

因此： $df = (μ f^{'} + \frac{1}{2} σ^{2} f^{''}) d t + σ f^{'} d B$

几何布朗运动

设 $d S = μ S d t + σ S d B$ （股票价格模型），则： $lo g S (t) = lo g S (0) + (μ - \frac{σ ^{2}}{2}) t + σ B (t)$ 因此 $S (t) = S (0) exp ((μ - \frac{σ ^{2}}{2}) t + σ B (t))$ 这正是Black-Scholes期权定价模型的基础。

10.4 随机微分方程

**随机微分方程（SDE）**的形式： $d X (t) = μ (X (t), t) d t + σ (X (t), t) d B (t)$

解的存在唯一性：若 $μ$ 和 $σ$ 满足Lipschitz条件和线性增长条件，则存在唯一强解。

** Ornstein-Uhlenbeck过程**（Ornstein-Uhlenbeck Process）： $d X (t) = - θX (t) d t + σ d B (t)$

解析解： $X (t) = X (0) e^{- θt} + σ \int_{0}^{t} e^{- θ (t - s)} d B (s)$

OU过程是均值回归过程的代表，在金融（利率模型）和物理（过阻尼粒子）中广泛应用。

十一、熵与信息论基础

11.1 信息熵的公理化

信息熵由香农（Shannon）于1948年提出，定义为： $H (X) = - \sum_{x} p (x) lo g p (x) = E [- lo g p (X)]$

约定 $0 lo g 0 = 0$ 。通常使用 $lo g_{2}$ （比特）或自然对数（纳特）。

熵的公理化基础（Khinchin 1957）：

$H (p_{1}, \dots, p_{n})$ 是 $p_{i}$ 的连续函数
若所有 $p_{i} = 1/ n$ ，则 $H$ 随 $n$ 单调递增
$H (p_{1}, \dots, p_{n}) = H (p_{1}, \dots, p_{n} + p_{n + 1}) + (p_{n} + p_{n + 1}) H (\frac{p _{n}}{p _{n} + p _{n + 1}}, \frac{p _{n + 1}}{p _{n} + p _{n + 1}})$

满足这三条公理的唯一形式是 Shannon 熵（带常数因子）。

11.2 联合熵与条件熵

联合熵： $H (X, Y) = - \sum_{x} \sum_{y} p (x, y) lo g p (x, y)$

条件熵（条件期望的形式）： $H (Y ∣ X) = \sum_{x} p (x) H (Y ∣ X = x) = - \sum_{x} p (x) \sum_{y} p (y ∣ x) lo g p (y ∣ x)$

链式法则： $H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)$

因此： $H (Y ∣ X) \leq H (Y)$ $I (X; Y) = H (Y) - H (Y ∣ X) = H (X) - H (X ∣ Y) \geq 0$

互信息衡量两个随机变量共享的信息量： $I (X; Y) = \sum_{x} \sum_{y} p (x, y) lo g \frac{p ( x , y )}{p ( x ) p ( y )}$

11.3 KL散度

KL散度（相对熵）衡量两个分布的”距离”： $D_{K L} (P ∥ Q) = \sum_{x} P (x) lo g \frac{P ( x )}{Q ( x )} = E_{P} [lo g \frac{P ( X )}{Q ( X )}]$

KL散度的性质：

非负性： $D_{K L} (P ∥ Q) \geq 0$ （吉布斯不等式）
非对称性： $D_{K L} (P ∥ Q) \neq = D_{K L} (Q ∥ P)$
$D_{K L} (P ∥ Q) = 0$ 当且仅当 $P = Q$

KL散度不是度量

KL散度不满足三角不等式，因此不是严格意义上的距离。但它是一个有效的”散度”，在变分推断中被广泛使用。

与互信息的关系： $I (X; Y) = D_{K L} (P (X, Y) ∥ P (X) P (Y))$

条件KL散度的链式法则： $D_{K L} (P ∥ Q) = D_{K L} (P (X) ∥ Q (X)) + E_{P} [D_{K L} (P (Y ∣ X) ∥ Q (Y ∣ X))]$

11.4 最大熵原理

最大熵原理：在所有满足已知约束的分布中，熵最大的分布是最”客观”的分布。

最大熵分布：

约束	最大熵分布
$x \in [a, b]$ ，无其他约束	均匀分布
固定均值 $μ$ ， $x \geq 0$	指数分布
固定均值 $μ$ ，方差 $σ^{2}$	正态分布
固定均值 $μ$ ，固定 $P (X = k) = 0$ 当 $k < 0$ ，离散	泊松分布

最大熵与均匀分布

在离散情形，熵在均匀分布 $P (x_{i}) = 1/ n$ 时取得最大值： $H = - \sum_{i = 1}^{n} \frac{1}{n} lo g \frac{1}{n} = lo g n$ 这说明均匀分布是最”无偏”的分布，在没有其他信息时应该选用。

十二、极值理论初步

12.1 极值分布的类型

设 $X_{1}, \dots, X_{n}$ 独立同分布，定义： $M_{n} = max {X_{1}, \dots, X_{n}}$ $m_{n} = min {X_{1}, \dots, X_{n}}$

Fisher-Tippett-Gnedenko定理：标准化后的最大值分布收敛到以下三种极值分布之一：

Gumbel分布（Type I）： $H_{Gumbel} (x) = exp (- e^{- x})$
Fréchet分布（Type II）： $H_{Fr \overset{e}{ˊ} chet} (x) = {0 exp (- x^{- α}) x \leq 0 x > 0$
Weibull分布（Type III）： $H_{Weibull} (x) = {exp (- (- x)^{α}) 1 x < 0 x \geq 0$

**广义极值分布（GEV）**统一了以上三种： $H (x) = exp (- (1 + ξ x)^{- 1/ ξ}), 1 + ξ x > 0$

$ξ > 0$ ：Fréchet型（重尾）
$ξ = 0$ ：Gumbel型（指数尾）
$ξ < 0$ ：Weibull型（有界尾）

12.2 广义帕累托分布

**广义帕雷托分布（GPD）**描述超过某个阈值的超额分布：

$G (x) = 1 - (1 + \frac{ξ x}{σ})^{- 1/ ξ}, x \geq 0 且 1 + ξ x / σ > 0$

超过阈值方法（Peaks Over Thresholds, POT）：

超过高阈值 $u$ 的超额部分 $Y = X - u ∣ X > u$
当 $u$ 足够高时， $Y$ 近似服从GPD

这在金融风险管理和水文统计中广泛应用。

12.3 极值理论与风险管理

VaR（Value at Risk）： $P (X > Va R_{α}) = 1 - α$

Expected Shortfall（ES）： $E S_{α} = E [X ∣ X > Va R_{α}]$

ES比VaR更满足一致性公理（Artzner等人1999），是更好的风险度量。

极值理论在金融中的应用：

极端市场波动建模
保险索赔分布
操作风险建模

十三、概率论在机器学习中的高级应用

13.1 变分推断

变分推断（Variational Inference）将后验分布的近似问题转化为优化问题。

设真实后验 $p (Z ∣ X)$ 难以计算，引入近似分布 $q (Z) \in Q$ ： $min_{q \in Q} D_{K L} (q (Z) ∥ p (Z ∣ X))$

这等价于最大化证据下界（ELBO）： $L (q) = E_{q} [lo g p (X, Z)] - E_{q} [lo g q (Z)]$

平均场变分族： $q (Z) = \prod_{i = 1}^{m} q_{i} (Z_{i})$

这使得每个 $q_{i}$ 的最优解可以迭代更新。

ELBO的分解

$L (q) = lo g p (X) - D_{K L} (q (Z) ∥ p (Z ∣ X))$ 由于 $lo g p (X)$ 是常数，最小化KL散度等价于最大化ELBO。ELBO也是对数边际似然的下界。

13.2 期望传播

期望传播（Expectation Propagation, EP）是另一种近似推断方法。

核心思想：用因子分解的分布 $q (Z) = \prod_{i} t_{i} (Z_{i})$ 近似后验。

迭代过程：

迷向近似：移除某个因子 $t_{j}$
精确更新：计算移除后的分布与原始似然的乘积
矩匹配：将乘积分布投影回因子分解形式

EP在高斯过程分类和贝叶斯模型平均中广泛应用。

13.3 蒙特卡洛方法

蒙特卡洛方法通过随机采样来估计期望：

$E [f (X)] \approx \frac{1}{N} \sum_{i = 1}^{N} f (x_{i}), x_{i} \sim P$

重要性采样： $E [f (X)] = \int f (x) p (x) d x = \int f (x) \frac{p ( x )}{q ( x )} q (x) d x \approx \frac{1}{N} \sum_{i = 1}^{N} f (x_{i}) w_{i}$

其中 $w_{i} = p (x_{i}) / q (x_{i})$ 是重要性权重， $q$ 是提议分布。

马尔可夫链蒙特卡洛（MCMC）：

当直接采样困难时，MCMC通过构造马尔可夫链来生成样本：

Metropolis-Hastings算法：接受-拒绝机制
Gibbs采样：逐变量条件采样
Hamiltonian MC：利用梯度信息的更高效采样

13.4 高斯过程

高斯过程是函数空间的贝叶斯推断工具。

定义： $f (x)$ 是高斯过程，若对任意有限点集 ${x_{i}}$ ， $(f (x_{1}), \dots, f (x_{n})) \sim N (μ, K)$

其中 $K_{ij} = k (x_{i}, x_{j})$ 是核函数矩阵。

高斯过程回归：

设观测模型 $y_{i} = f (x_{i}) + ϵ_{i}$ ， $ϵ_{i} \sim N (0, σ_{n}^{2})$ 。

预测分布： $f_{*} ∣ x_{*}, X, y \sim N (μ_{*}, σ_{*}^{2})$

其中： $μ_{*} = k_{*}^{T} (K + σ_{n}^{2} I)^{- 1} y$ $σ_{*}^{2} = k_{**} - k_{*}^{T} (K + σ_{n}^{2} I)^{- 1} k_{*}$

高斯过程提供：

函数值的点估计
不确定性量化（预测方差）
自动相关性选择（通过核函数）

十四、概率论高级专题

14.1 随机矩阵理论

随机矩阵理论研究随机矩阵的特征值分布，在多用户通信和金融风险中应用广泛。

Wigner矩阵：对称随机矩阵，上三角元素独立同分布（次对角线方差为1）。

半圆定律（Wigner, 1955）：设 $W_{n}$ 是 $n \times n$ Wigner矩阵，归一化后的经验谱分布收敛到密度： $ρ (x) = \frac{1}{2 π} 4 - x^{2}, ∣ x ∣ \leq 2$

这是著名的”半圆”分布。

Marchenko-Pastur定律：对于随机样本协方差矩阵，当 $n, p \to \infty$ 且 $n / p \to γ$ ：

$ρ_{λ} (x) = \frac{1}{2 π x γ σ ^{2}} (b - x) (x - a) + 点质量 at 0 (if γ > 1)$

其中 $a = σ^{2} (1 - 1/ γ)^{2}$ ， $b = σ^{2} (1 + 1/ γ)^{2}$ 。

金融协方差矩阵

经验协方差矩阵在资产数量大于时间序列长度时是病态的。随机矩阵理论提供了判别”信号”与”噪声”的理论框架，帮助识别真实的市场相关性。

14.2 随机过程的高级专题

莱维过程：

莱维过程是独立平稳增量的随机过程，包括：

布朗运动
泊松过程
稳定过程（ $α$ -stable processes）

莱维过程可以分解为： $L (t) = a t + σ B (t) + \sum_{0 \leq s \leq t} Δ L (s)$

其中 $Δ L (s) = L (s) - L (s -)$ 是跳跃部分。

分数布朗运动：

具有长期记忆性质的随机过程：

Hurst参数 $H \in (0, 1)$
$H > 1/2$ ：长程依赖（持续性）
$H < 1/2$ ：反持续性
$H = 1/2$ ：普通布朗运动

分数布朗运动不是半鞅，不能直接使用标准伊藤积分。

14.3 概率不等式

Hoeffding不等式（独立有界随机变量）： $P (\frac{1}{n} \sum_{i = 1}^{n} X_{i} - E [X_{i}] > ϵ) \leq 2 exp (- \frac{2 n ^{2} ϵ ^{2}}{\sum _{i} ( b _{i} - a _{i} ) ^{2}})$

McDiarmid不等式（浓度不等式）：若 $f$ 的改变一个坐标的函数值变化有界，则： $P (∣ f (X_{1}, \dots, X_{n}) - E [f] ∣ > ϵ) \leq 2 exp (- \frac{2 ϵ ^{2}}{\sum _{i} c _{i}^{2}})$

Azuma不等式（鞅浓度）：若 ${M_{n}}$ 是鞅，增量有界，则： $P (∣ M_{n} - M_{0} ∣ > ϵ) \leq 2 exp (- \frac{ϵ ^{2}}{2 \sum _{i} c _{i}^{2}})$

这些不等式在PAC学习和在线学习的泛化界推导中至关重要。

14.4 概率与几何

概率测度的收敛：

弱收敛： $X_{n} d X$ 等价于 $E [f (X_{n})] \to E [f (X)]$ 对所有有界连续 $f$
Wasserstein距离： $W_{p} (μ, ν) = (in f_{γ \in Γ (μ, ν)} \int ∥ x - y ∥^{p} d γ (x, y))^{1/ p}$
Wasserstein距离在最优传输和生成模型（如WGAN）中起核心作用

随机几何：

泊松点过程：空间随机性建模
随机图：Erdős-Rényi图，配置模型
渗流理论：网格上的随机连通性

十五、概率测度的收敛与弱收敛

15.1 测度论基础回顾

概率测度是定义在可测空间 $(Ω, F)$ 上的测度，满足 $P (Ω) = 1$ 。

勒贝格积分提供了比黎曼积分更一般的积分定义： $\int_{Ω} fd P = \int_{R} f (x) d F (x)$

其中 $F$ 是分布函数。

Radon-Nikodym导数：若 $P ≪ μ$ （ $P$ 对 $μ$ 绝对连续），则存在 $f = \frac{d P}{d μ}$ 使得： $P (A) = \int_{A} fd μ$

15.2 弱收敛的严格定义

分布函数视角： $X_{n} \Rightarrow X$ 当且仅当 $F_{n} (x) \to F (x)$ 在 $F$ 的连续点上。

概率测度视角： $\int fd P_{n} \to \int fd P, \forall f \in C_{b} (R)$

其中 $C_{b} (R)$ 是有界连续函数空间。

Portmanteau定理：以下等价

$X_{n} \Rightarrow X$
对任意闭集 $F$ ， $lim sup P (X_{n} \in F) \leq P (X \in F)$
对任意开集 $G$ ， $lim inf P (X_{n} \in G) \geq P (X \in G)$
对任意Borel集 $A$ 且 $P (X \in \partial A) = 0$ ， $P (X_{n} \in A) \to P (X \in A)$

15.3 Prohorov定理

Prohorov定理：概率测度族 ${μ_{n}}$ 相对紧当且仅当它是胎紧的（tight）。

胎紧性：对任意 $ϵ > 0$ ，存在紧集 $K$ 使得 $μ_{n} (K) > 1 - ϵ$ 对所有 $n$ 。

应用：证明随机变量序列存在收敛子列。

15.4 随机过程的弱收敛

Donsker不变原理：

设 $X_{1}, \dots, X_{n}$ 是独立同分布随机变量，均值为0，方差为1，则： $\frac{1}{n} \sum_{i = 1}^{⌊ n t ⌋} X_{i} \Rightarrow W (t)$

其中 $W (t)$ 是标准布朗运动。

这是泛函中心极限定理（Functional CLT）。

Skorokhod表示定理：若 $X_{n} \Rightarrow X$ ，存在定义在另一概率空间上的随机变量 $\tilde{X}_{n}, \tilde{X}$ 使得 $\tilde{X}_{n} \to \tilde{X}$ 几乎必然，且 $\tilde{X}_{n} \sim X_{n}$ ， $\tilde{X} \sim X$ 。

十六、随机过程的精细结构

16.1 布朗运动的建构

标准布朗运动可以通过多种方式建构：

Riesz表示： $B (t) = lim_{n \to \infty} \frac{1}{n} \sum_{k = 1}^{⌊ n t ⌋} ξ_{k}$

其中 $ξ_{k}$ 是独立同分布随机变量。

Lévy-Ciesielski建构：使用Haar小波基展开： $B (t) = \sum_{j = 0}^{\infty} \sum_{k = 0}^{2^{j} - 1} ξ_{jk} \int_{0}^{t} ψ_{jk} (s) d s$

其中 $ψ_{jk}$ 是Haar小波函数。

16.2 鞅论基础

鞅（Martingale）是公平博弈的数学模型。

下鞅： $E [X_{n + 1} ∣ F_{n}] \geq X_{n}$

上鞅： $E [X_{n + 1} ∣ F_{n}] \leq X_{n}$

Doob分解：任意下鞅可以唯一分解为： $X_{n} = M_{n} + A_{n}$

其中 $M_{n}$ 是鞅， $A_{n}$ 是可预测增量的增过程。

16.3 停时与可选采样定理

停时 $T$ ： ${T \leq n} \in F_{n}$

可选采样定理：若 $M_{n}$ 是右连续鞅，则： $E [M_{T}] = E [M_{0}]$

对任意有界停时 $T$ 成立。

Doob不等式： $P (sup_{0 \leq k \leq n} M_{k} \geq λ) \leq \frac{E [ ∣ M _{n} ∣ ]}{λ}$

$L^{p}$ 不等式： $E [sup_{0 \leq k \leq n} ∣ M_{k} ∣^{p}] \leq (\frac{p}{p - 1})^{p} E [∣ M_{n} ∣^{p}]$

16.4 布朗运动的精细性质

布朗运动的Hausdorff维数：轨道几乎必然是1/2维的。

布朗运动的局部时： $L (t, a) = lim_{ϵ \to 0} \frac{1}{2 ϵ} \int_{0}^{t} 1_{[a - ϵ, a + ϵ]} (B (s)) d s$

局部时描述了布朗运动在点 $a$ 停留的时间密度。

布朗运动的重分形性质： $lim_{ϵ \to 0} \frac{l o g L ( ϵ , t )}{l o g ϵ} = \frac{1}{2} a.s.$

十七、高级极限定理

17.1 稳定分布与吸引域

稳定分布的吸引域（Domain of Attraction）：

若 $X_{1}, \dots, X_{n}$ 独立同分布，存在常数 $a_{n}, b_{n}$ 使得： $\frac{S _{n} - b _{n}}{a _{n}} \Rightarrow Y$

其中 $Y$ 服从稳定分布。

稳定分布的参数化：

稳定分布 $S_{α} (σ, β, μ)$ ：

$α \in (0, 2]$ ：特征指数
$σ > 0$ ：尺度参数
$β \in [- 1, 1]$ ：偏度参数
$μ$ ：位置参数

特例：

$α = 2$ ：正态分布
$α = 1, β = 0$ ：柯西分布
$α = 1/2, β = 1$ ：Lévy分布

17.2 广义中心极限定理

广义中心极限定理：

若 $X_{i}$ 服从稳定分布 $S_{α} (α < 2)$ ，则： $\frac{S _{n} - n μ}{n ^{1/ α}} \Rightarrow S_{α} (σ, β, 0)$

幂律分布的极限定理： $P (X > x) \sim c x^{- α} \Rightarrow 吸引域为稳定分布$

17.3 大偏差理论

大偏差原理（Large Deviations Principle）：

设 $S_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}$ ，则： $lim_{n \to \infty} \frac{1}{n} lo g P (S_{n} \in A) = - in f_{x \in A} I (x)$

其中 $I (x)$ 是速率函数。

Cramér定理： $P (S_{n} \geq x) \approx exp (- n I (x))$

17.4 中偏差与局部极限定理

中偏差原理：

在典型事件和小概率事件之间，存在”中偏差”区域。

局部极限定理： $P (S_{n} = k) = \frac{1}{2 πn σ ^{2}} exp (- \frac{( k - n μ ) ^{2}}{2 n σ ^{2}}) + o (n^{- 1/2})$

这比普通CLT给出更精确的近似。

十八、概率论的哲学与历史

18.1 概率解释的争论

频率主义：

概率是无限重复实验的相对频率极限
代表人物：von Mises, Reichenbach
批评：无法处理单次事件的概率

主观主义（贝叶斯）：

概率是主观信念的程度
代表人物：de Finetti, Savage, Ramsey
批评：过于依赖个人判断

倾向主义：

概率是事物固有的倾向或能力
代表人物：Karl Popper
适用于物理概率

集合解释：

概率描述可能世界的客观结构
代表人物：Carnap

18.2 Kolmogorov公理体系的影响

Kolmogorov 1933年的著作奠定了现代概率论的基础。

公理化的意义：

将概率论建立在坚实的数学基础上
统一了离散和连续概率论
使得概率论能够进行严格的形式化推理

公理化的局限性：

没有规定概率的具体解释
没有说明如何选择概率模型
无法处理无穷维概率空间

18.3 现代概率论的发展

鞅论（Doob）：

将经典概率论推广到连续时间
建立了随机分析的基础

随机过程的一般理论（Kolmogorov）：

建立了有限维分布族决定随机过程
为马尔可夫过程提供理论基础

Malliavin随机分析：

在函数空间上建立微分结构
在金融数学中有重要应用

18.4 概率论与其他数学领域的交叉

概率与数论：

哥德巴赫猜想的大数偏差
素数分布的概率模型

概率与组合数学：

随机图论
随机矩阵

概率与物理：

统计力学
量子信息

十九、点过程理论

19.1 点过程的基本概念

点过程是在空间中随机分布的点的集合。

泊松点过程（PPP）： $N \sim Poisson (λ)$

在区域 $A$ 中的点数 $N (A) \sim Poisson (λ ∣ A ∣)$ ，且对不相交区域独立。

强度函数 $λ (x)$ ： $E [N (A)] = \int_{A} λ (x) d x$

19.2 条件强度模型

条件强度函数： $λ^{*} (t) = λ (t) \cdot μ (t ∣ H_{t})$

用于建模自激发过程（如Hawkes过程）。

Hawkes过程： $λ (t) = μ + \sum_{t_{i} < t} α e^{- β (t - t_{i})}$

$μ$ ：基强度
$α, β$ ：兴奋核参数

19.3 空间点过程

空间泊松过程：

在 $R^{d}$ 中均匀分布
点间距离的分布由Ripley’s K函数刻画

K函数： $K (r) = \frac{1}{λ} E [点在距离 r 内的其他点数]$

19.4 点过程的应用

神经科学：神经元发放时间建模

金融：高频交易事件建模

生态学：物种分布分析

通信网络：无线网络干扰建模

二十、概率极限理论与极端值

20.1 稳定分布的深度分析

稳定分布的吸引域：

若 $X_{1}, \dots, X_{n}$ i.i.d. 属于某分布 $F$ ，若存在规范化常数 $a_{n}, b_{n}$ 使： $\frac{S _{n} - b _{n}}{a _{n}} \Rightarrow Y$

则 $F$ 在 $S_{α}$ 的吸引域内。

吸引域的特征：

$α = 2$ ：正态域（有限的方差）
$1 < α < 2$ ：吸引域包含分布，其特征函数满足 $ψ (t) \sim - c ∣ t ∣^{α}$
$α = 1$ ：柯西域
$0 < α < 1$ ：无均值

20.2 极值指数估计

极值指数 $ξ$ ：

$ξ > 0$ ：Fréchet型（重尾）
$ξ = 0$ ：Gumbel型（指数尾）
$ξ < 0$ ：Weibull型（有界尾）

Hill估计量： $\hat{ξ}_{k} = \frac{1}{k} \sum_{i = 1}^{k} lo g X_{(i)} - lo g X_{(k + 1)}$

20.3 极端值风险度量

广义帕累托分布（GPD）： $G (x) = 1 - (1 + \frac{ξ x}{σ})^{- 1/ ξ}$

阈值选择：

经验分位数图
平均超出量函数图

20.4 极值理论的计算方法

块极大值方法（BMM）：

将数据分成块
提取每块最大值
拟合GEV分布

超过阈值方法（POT）：

选择阈值 $u$
对超额量拟合GPD
估计尾部分布

二十一、随机过程的高级专题

21.1 莱维过程

莱维过程 $L (t)$ ：

独立增量
平稳增量
轨道右连续且有左极限（càdlàg）

Lévy-Khintchine公式： $E [e^{i uL (t)}] = e^{t ψ (u)}$ $ψ (u) = i u a - \frac{1}{2} u^{T} Σ u + \int_{R^{d} ∖ {0}} (e^{i ux} - 1 - i ux 1_{∥ x ∥ \leq 1}) ν (d x)$

其中 $(a, Σ, ν)$ 是Lévy三指标。

21.2 稳定过程

$α$ -稳定过程 $S_{α} (t)$ ：

自相似指数 $H = 1/ α$
平稳增量
重尾（ $S_{α}$ 有 $α$ 阶矩 iff $α > 2$ ，但实际上稳定分布通常 $α < 2$ ）

Sato进程：稳定过程的随机时间变化。

21.3 分数布朗运动

分数布朗运动 $B_{H} (t)$ ：

均值为0
协方差： $E [B_{H} (t) B_{H} (s)] = \frac{1}{2} (t^{2 H} + s^{2 H} - ∣ t - s ∣^{2 H})$
Hurst指数 $H \in (0, 1)$

长程依赖：

$H > 1/2$ ：长程正相关
$H < 1/2$ ：长程负相关
$H = 1/2$ ：普通布朗运动

21.4 随机微分方程的数值解

Euler-Maruyama方法： $X_{n + 1} = X_{n} + μ (X_{n}) Δ t + σ (X_{n}) Δ B_{n}$

Milstein方法： $X_{n + 1} = X_{n} + μ (X_{n}) Δ t + σ (X_{n}) Δ B_{n} + \frac{1}{2} σ (X_{n}) σ^{'} (X_{n}) (Δ B_{n}^{2} - Δ t)$

强收敛 vs 弱收敛：

强收敛：路径逼近
弱收敛：分布逼近

二十二、信息论高级专题

22.1 率失真理论

率失真函数 $R (D)$ ： $R (D) = min_{p (x ∣ \overset{x}{^}) : E [d (X, \hat{X})] \leq D} I (X; \hat{X})$

失真度量 $d (x, \overset{x}{^})$ ：

平方误差： $d (x, \overset{x}{^}) = (x - \overset{x}{^})^{2}$
Hamming失真：用于离散数据

22.2 信道容量

离散无记忆信道容量： $C = max_{p (x)} I (X; Y)$

高斯信道容量： $C = \frac{1}{2} lo g (1 + \frac{P}{σ ^{2}})$

多输入多输出（MIMO）信道： $C = lo g det (I + \frac{ρ}{n _{t}} H H^{†})$

22.3 网络信息论

广播信道容量区域：

已知内界和外界的表达
一般情况未完全解决

中继信道容量： $C = max_{p (x, w)} min {I (X; Y), I (W; Y) + I (X; Z ∣ W)}$

22.4 信息论与统计推断

最小描述长度（MDL）： $MDL = - lo g p (x ∣ θ) + \frac{k}{2} lo g n$

等价于 BIC 准则。

信息瓶颈： $min_{p (\tilde{x} ∣ x)} I (X; \tilde{X}) - β I (\tilde{X}; Y)$

二十三、概率与金融数学

23.1 金融模型的概率基础

资产价格 $S (t)$ ：

几何布朗运动模型： $d S = μ S d t + σ S d W$
离散时间模型： $S_{t + 1} = S_{t} exp (μ + σ Z)$

收益率：

简单收益率： $R_{t} = (S_{t} - S_{t - 1}) / S_{t - 1}$
对数收益率： $r_{t} = lo g S_{t} - lo g S_{t - 1}$

23.2 Black-Scholes框架

Black-Scholes偏微分方程： $\frac{\partial V}{\partial t} + \frac{1}{2} σ^{2} S^{2} \frac{\partial ^{2} V}{\partial S ^{2}} + r S \frac{\partial V}{\partial S} - r V = 0$

期权定价公式： $C (S, t) = SN (d_{1}) - K e^{- r (T - t)} N (d_{2})$ $d_{1} = \frac{l n ( S / K ) + ( r + σ ^{2} /2 ) ( T - t )}{σ T - t}$ $d_{2} = d_{1} - σ T - t$

23.3 风险度量

VaR（Value at Risk）： $P (L \leq Va R_{α}) = α$

Expected Shortfall： $E S_{α} = E [L ∣ L > Va R_{α}]$

Coherent风险度量（Artzner等）：

次可加性
正齐次性
单调性
平移不变性

23.4 信用风险模型

违约概率模型： $P (τ \leq T) = 1 - e^{- \int_{0}^{T} λ (t) d t}$

强度模型： $P (τ > t) = exp (- \int_{0}^{t} λ (s) d s)$

Copula模型： $F (x_{1}, \dots, x_{d}) = C (F_{1} (x_{1}), \dots, F_{d} (x_{d}))$

二十四、概率论在机器学习中的前沿应用

24.1 深度生成模型

变分自编码器（VAE）： $L = E_{q_{ϕ} (z ∣ x)} [lo g p_{θ} (x ∣ z)] - D_{K L} (q_{ϕ} (z ∣ x) ∥ p (z))$

生成对抗网络（GAN）： $min_{G} max_{D} V (D, G) = E_{x \sim p_{d a t a}} [lo g D (x)] + E_{z \sim p_{z}} [lo g (1 - D (G (z)))]$

归一化流： $x = f (z), z \sim p_{z}$ $lo g p (x) = lo g p_{z} (z) - lo g det \frac{\partial f}{\partial z}$

24.2 贝叶斯深度学习

贝叶斯神经网络： $p (w ∣ D) \propto p (D ∣ w) p (w)$

变分推断近似： $q (w) \approx p (w ∣ D)$

不确定性估计：

认知不确定性（epistemic）
偶然不确定性（aleatoric）

24.3 图模型与消息传递

信念传播： $μ_{i \to j} (x_{j}) = \sum_{x_{i}} ψ_{ij} (x_{i}, x_{j}) \prod_{k \in N (i) ∖ j} μ_{k \to i} (x_{i})$

变分消息传递： $q (x) = ar g min_{q} D_{K L} (q (x) ∥ p (x ∣ D))$

24.4 强化学习中的概率方法

策略梯度： $\nabla_{θ} J (θ) = E_{π_{θ}} [\nabla_{θ} lo g π_{θ} (a ∣ s) Q^{π} (s, a)]$

Actor-Critic方法：

Actor：策略梯度更新
Critic：价值函数估计

贝叶斯优化： $max_{x} f (x) \approx max_{x \in D} E [f (x) ∣ data]$

参考文献

Kolmogorov, A. N. (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung. Springer-Verlag.
Billingsley, P. (1995). Probability and Measure (3rd ed.). Wiley.
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury Press.
Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press.
Durrett, R. (2019). Probability: Theory and Examples (5th ed.). Cambridge University Press.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Øksendal, B. (2003). Stochastic Differential Equations: An Introduction (6th ed.). Springer.
MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press.
Anderson, T. W. (2003). An Introduction to Multivariate Statistical Analysis (3rd ed.). Wiley.
Karatzas, I., & Shreve, S. E. (1991). Brownian Motion and Stochastic Calculus (2nd ed.). Springer.
Jacod, J., & Shiryaev, A. N. (2003). Limit Theorems for Stochastic Processes (2nd ed.). Springer.
Dembo, A., & Zeitouni, O. (2010). Large Deviations Techniques and Applications (2nd ed.). Springer.
Samorodnitsky, G., & Taqqu, M. S. (1994). Stable Non-Gaussian Random Processes. Chapman & Hall.
de Finetti, B. (1974). Theory of Probability (2 vols.). Wiley.
Daley, D. J., & Vere-Jones, D. (2008). An Introduction to the Theory of Point Processes (2nd ed.). Springer.
Resnick, S. I. (2007). Heavy-Tail Phenomena: Probabilistic and Statistical Modeling. Springer.
Cont, R., & Tankov, P. (2004). Financial Modelling with Jump Processes. Chapman & Hall.
Kingman, J. F. C. (1993). Poisson Processes. Oxford University Press.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

人工智能知识库

探索

概率论深度指南

概率论深度指南

关键词

一、概率空间与公理化体系

1.1 概率论的三元组结构

1.2 条件概率与乘法公式

二、贝叶斯定理与统计推断基础

2.1 贝叶斯定理的导出

2.2 贝叶斯推断的哲学意义

三、随机变量与概率分布

3.1 离散随机变量

3.2 连续随机变量

四、数字特征：期望、方差、协方差

4.1 期望值

4.2 方差与标准差

4.3 协方差与相关系数

4.4 协方差矩阵

五、极限定理

5.1 大数定律

5.2 中心极限定理

六、概率分布族

6.1 指数族分布

6.2 共轭先验

七、多元概率分布

7.1 多元正态分布

7.2 多元分布的数字特征

7.3 多元条件分布与贝叶斯网络

7.4 混合分布

八、随机过程基础

8.1 随机过程的基本概念

8.2 平稳过程

8.3 马尔可夫链

8.4 泊松过程

九、收敛性与极限定理深入

9.1 收敛模式的完整刻画

9.2 Borel-Cantelli引理

9.3 中心极限定理的深入分析

9.4 重对数律

十、随机微积分初步

10.1 布朗运动

10.2 伊藤积分

10.3 伊藤引理

10.4 随机微分方程

十一、熵与信息论基础

11.1 信息熵的公理化

11.2 联合熵与条件熵

11.3 KL散度

11.4 最大熵原理

十二、极值理论初步

12.1 极值分布的类型

12.2 广义帕累托分布

12.3 极值理论与风险管理

十三、概率论在机器学习中的高级应用

13.1 变分推断

13.2 期望传播

13.3 蒙特卡洛方法

13.4 高斯过程

十四、概率论高级专题

14.1 随机矩阵理论

14.2 随机过程的高级专题

14.3 概率不等式

14.4 概率与几何

十五、概率测度的收敛与弱收敛

15.1 测度论基础回顾

15.2 弱收敛的严格定义

15.3 Prohorov定理

15.4 随机过程的弱收敛

十六、随机过程的精细结构

16.1 布朗运动的建构

16.2 鞅论基础

16.3 停时与可选采样定理

16.4 布朗运动的精细性质

十七、高级极限定理

17.1 稳定分布与吸引域

17.2 广义中心极限定理

17.3 大偏差理论

17.4 中偏差与局部极限定理

十八、概率论的哲学与历史