概率论深度指南
文档概述
本文档系统梳理概率论的核心知识体系,涵盖从公理化基础到高级概率分布族的完整理论框架,为机器学习与人工智能研究提供坚实的数学基础。
关键词
| 序号 | 关键词 | 英文 | 核心概念 |
|---|---|---|---|
| 1 | 概率空间 | Probability Space | |
| 2 | 随机变量 | Random Variable | |
| 3 | 条件概率 | Conditional Probability | |
| 4 | 贝叶斯定理 | Bayes’ Theorem | |
| 5 | 期望值 | Expectation | |
| 6 | 方差 | Variance | |
| 7 | 协方差 | Covariance | |
| 8 | 大数定律 | Law of Large Numbers | |
| 9 | 中心极限定理 | Central Limit Theorem | |
| 10 | 指数族 | Exponential Family | |
| 11 | 共轭先验 | Conjugate Prior | Beta-Binomial, Dirichlet-Multinomial |
| 12 | 测度论 | Measure Theory | Lebesgue积分基础 |
一、概率空间与公理化体系
1.1 概率论的三元组结构
现代概率论建立在测度论的基础之上,采用公理化方法构建完整的理论体系。概率空间由三元组 定义,这一结构将随机现象的形式化描述提升到了严格的数学高度。
样本空间 表示所有可能基本结果的集合。例如,抛掷一枚均匀硬币的样本空间为 ,其中 表示正面, 表示反面。在连续情形下,掷骰子的样本空间为 。对于连续随机变量,样本空间通常是 的子集。
σ-代数 (也称σ-域)是样本空间上满足特定条件的子集族。 必须满足:
- (包含空集)
- 若 ,则 (对补运算封闭)
- 若 ,则 (对可数并封闭)
σ-代数的引入是为了定义可测集,从而确保概率可以良定义地赋予每个事件。Borel σ-代数 是实数轴上最重要的σ-代数,由所有开区间生成。
概率测度 满足Kolmogorov公理:
- 非负性:对任意 ,
- 归一性:
- 可数可加性:若 两两不相交,则
古典概型的概率计算
若样本空间有 个等可能基本结果,事件 包含 个基本结果,则 。例如,从52张扑克牌中抽取一张,抽到红心的概率为 。
1.2 条件概率与乘法公式
在已知部分信息的情况下更新概率估计,是概率论应用于统计推断的核心操作。条件概率定义为:
这一公式的几何直观是:在事件 发生的条件下, 发生的概率等于 在 中所占的比例。
由条件概率公式可直接导出乘法公式:
对于多个事件,链式法则给出:
独立性检验
事件 与 相互独立当且仅当 。若 ,这等价于 。独立性是概率论中最强的非平凡假设之一,在实际建模中需要谨慎验证。
二、贝叶斯定理与统计推断基础
2.1 贝叶斯定理的导出
贝叶斯定理是概率论中最为重要的公式之一,它建立了先验知识与观测数据之间的桥梁。由条件概率的定义出发:
展开全概率公式中的 :
得到贝叶斯定理的标准形式:
在统计学的参数估计语境下,贝叶斯定理写作:
其中:
- 是先验概率(Prior),编码了参数 的先验知识
- 是似然函数(Likelihood),表示在参数 下观测到数据 的概率
- 是后验概率(Posterior),是在观测数据 后对参数 的更新认知
- 是边际似然(Marginal Likelihood),作为归一化常数确保后验分布积分为1
2.2 贝叶斯推断的哲学意义
贝叶斯方法的核心思想是:学习是一个迭代的过程。观测数据不断更新我们对世界的认知,而先验分布则编码了历史经验和领域知识。这种”先验→数据→后验”的范式与人类认知过程高度一致。
在机器学习中,贝叶斯方法的优势体现在:
- 不确定性量化:后验分布本身包含了关于参数的完整不确定性信息
- 正则化效应:先验分布防止过拟合,尤其在数据稀缺时效果显著
- 模型选择:边际似然可以自然地进行模型比较
计算挑战
对于复杂模型,后验分布 通常没有解析形式。常用近似方法包括:马尔可夫链蒙特卡洛(MCMC)、变分推断(VI)、拉普拉斯近似等。
三、随机变量与概率分布
3.1 离散随机变量
设 是定义在概率空间 上的随机变量,若 只取有限或可数无限个值,则称为离散随机变量。概率质量函数(PMF)定义为 ,满足 和 。
伯努利分布 :
二项分布 :
泊松分布 :
泊松分布是二项分布的极限形式,当 很大、 很小时,。这使得泊松分布在稀有事件建模(如网站访问、放射性衰变)中极为有用。
3.2 连续随机变量
概率密度函数(PDF) 满足:
- 对所有
累积分布函数(CDF)定义为 。
正态分布(高斯分布):
正态分布在概率论中占据核心地位,其重要性由中心极限定理保证。
指数分布 :
指数分布具有无记忆性:,这使其成为描述等待时间的自然选择。
拉普拉斯分布 :
拉普拉斯分布在机器学习中常作为稀疏模型的先验分布(对应L1正则化)。
四、数字特征:期望、方差、协方差
4.1 期望值
离散情形:
连续情形:
期望算子具有线性性:,这一性质在推导统计量性质时极为重要。
条件期望 是 的函数,定义为:
条件期望具有”tower property”(塔性质):
这一性质是迭代期望定理的核心,在处理分层数据和缺失数据时非常有用。
4.2 方差与标准差
方差衡量随机变量偏离其均值的程度:
标准差 与原变量量纲相同,更易解释。
对于独立随机变量 和 :
方差不是线性的,这是与期望的根本区别。
4.3 协方差与相关系数
协方差衡量两个随机变量的联合变异程度:
相关系数是协方差的归一化版本:
相关系数 ,其中 意味着完全线性相关, 意味着不相关(但不一定独立!)。
相关与独立
独立必然导致不相关,但不相关不一定独立。例如,若 且 ,则 但 与 显然不独立。
4.4 协方差矩阵
对于 维随机向量 ,协方差矩阵定义为:
协方差矩阵是半正定对称矩阵,其特征值非负,在机器学习的很多算法(如PCA、主成分分析)中起核心作用。
五、极限定理
5.1 大数定律
弱大数定律(辛钦大数定律):设 是独立同分布的随机变量, 存在,则:
即样本均值依概率收敛到总体均值。
强大数定律:在相同条件下,样本均值几乎必然收敛到 :
大数定律是蒙特卡洛方法的理论基础:可以通过大量随机采样的均值来估计期望值。
5.2 中心极限定理
中心极限定理(CLT)是概率论中最令人惊叹的结果之一:
设 是独立同分布的随机变量,,,则:
其中 是标准正态分布的累积分布函数。
CLT的深远意义
无论原始分布是什么(只要方差有限),标准化后的样本均值都趋近于正态分布。这解释了为什么正态分布在自然界中如此普遍——大量微小独立因素叠加的结果就是正态分布。CLT也是统计推断的理论基础:置信区间、假设检验等都依赖于正态性假设。
六、概率分布族
6.1 指数族分布
指数族是机器学习中最重要的分布族,其统一形式为:
其中:
- 是基础测度(不依赖参数)
- 是自然参数
- 是充分统计量
- 是对数配分函数(确保归一化)
指数族的重要成员包括:
- 正态分布
- 伯努利分布
- 二项分布
- 泊松分布
- Gamma分布
- Beta分布
- Dirichlet分布
指数族具有以下优良性质:
- 充分统计量:数据可以用固定维度的充分统计量压缩
- 共轭先验存在:便于贝叶斯推断
- 对数凸性:便于优化
- 梯度结构简单:
6.2 共轭先验
在贝叶斯推断中,若先验分布 与似然函数 的乘积正比于同一分布族,则称该先验为共轭先验。共轭先验使得后验分布具有解析形式,避免了复杂的数值计算。
| 似然分布 | 共轭先验 | 后验参数更新 |
|---|---|---|
| Bernoulli() | Beta() | |
| Binomial() | Beta() | |
| Poisson() | Gamma() | |
| Normal()(已知) | Normal() | 后验仍为正态 |
Beta-Bernoulli共轭
设先验 ,观测数据 ,则后验: 后验均值 是先验均值 与样本均值 的加权平均。
七、多元概率分布
7.1 多元正态分布
多元正态分布(也称多元高斯分布)是概率论中最重要的多元分布,在统计推断和机器学习中无处不在。
设随机向量 服从 维正态分布,记作 ,其概率密度函数为:
其中:
- 是均值向量
- 是协方差矩阵,必须是正定对称矩阵
- 和 分别表示行列式和逆矩阵
多元正态分布的性质:
-
线性变换:若 ,,则:
-
边缘分布:任意子向量的边缘分布仍是正态分布。
-
条件分布:条件分布 也是正态分布:
其中:
这在高斯过程和卡尔曼滤波中极为重要。
-
独立性: 的各分量相互独立当且仅当 是对角矩阵。
协方差矩阵的分解
协方差矩阵 可以进行多种分解:
- Cholesky分解:( 下三角)
- 特征分解:( 正交, 对角)
- 这些分解在采样(如高斯过程)和计算(如贝叶斯推断)中非常重要
7.2 多元分布的数字特征
均值向量:
协方差矩阵:
协方差矩阵的性质:
- 对称半正定:
- 是总体方差
- 衡量多元数据的”散布程度”
相关系数矩阵 :
相关系数矩阵是对称的且对角线元素为1。
协方差与相关系数的关系:
7.3 多元条件分布与贝叶斯网络
在多元概率模型中,条件独立性是一个核心概念。
条件独立性:给定 , 与 条件独立,记作 ,当且仅当:
高斯条件分布的递归结构:
设 服从多元正态分布。联合分布可以分解为:
这种分解在高斯马尔可夫随机场和线性动态系统中至关重要。
Precision矩阵(协方差矩阵的逆):
精度矩阵在图模型中扮演核心角色。若 (),则 。
这建立了高斯图模型与稀疏逆协方差估计之间的联系(Graphical Lasso算法)。
7.4 混合分布
高斯混合模型(GMM):
其中 是混合权重,满足 。
GMM的应用:
- 聚类分析:每个成分对应一个聚类
- 密度估计:灵活的密度逼近
- 数据生成:从混合分布采样
EM算法求解GMM:
E步:计算每个数据点属于各成分的后验概率
M步:更新参数
其中 是后验概率。
八、随机过程基础
8.1 随机过程的基本概念
随机过程是随时间(或空间)索引的随机变量族:
- 若 是离散集合(如 ),称为离散时间随机过程
- 若 是连续集合(如 ),称为连续时间随机过程
样本轨道:固定一次实现 ,得到一条确定性函数。
有限维分布族:对任意 , 的联合分布。
Kolmogorov延拓定理表明,有限维分布族决定随机过程(存在性)。
8.2 平稳过程
严平稳过程(Strictly Stationary):
即联合分布在时间平移下不变。
宽平稳过程(Weakly Stationary / Second-order Stationary):
宽平稳性是实际应用中更常用的假设,因为只需假设一阶和二阶矩存在。
自协方差函数 :
- 是方差
- (对称性)
- 是非负定的
8.3 马尔可夫链
马尔可夫性质:给定当前状态,未来与过去条件独立:
转移概率矩阵 :
是随机矩阵(每行和为1)。
Chapman-Kolmogorov方程:
即从状态 到状态 的 步转移概率等于中间所有可能状态的 步和 步概率之和。
平稳分布 :
若马尔可夫链是不可约且非周期的,则平稳分布存在且唯一(遍历定理)。
8.4 泊松过程
泊松过程是描述稀有事件发生次数的随机过程。
定义1(计数过程视角): 表示时间 内事件发生的次数,满足:
- 独立增量: 与之前独立
- 平稳增量:增量分布仅依赖时间长度
泊松分布:
定义2(到达时间视角):到达时间 满足:
- 间隔时间 独立同分布
- (指数分布)
指数分布与泊松过程的关系:
- 指数分布具有无记忆性:
- 到达间隔的指数分布是泊松过程的等价定义
泊松过程的叠加与稀释:
- 独立的泊松过程叠加仍是泊松过程,参数相加
- 稀疏化(独立伯努利采样)得到稀释泊松过程
泊松过程的应用场景
- 电话呼叫中心:来电到达
- 放射性衰变:粒子发射
- 网站访问:HTTP请求
- 交通流:车辆到达
九、收敛性与极限定理深入
9.1 收敛模式的完整刻画
概率论中有四种主要的收敛模式:
依概率收敛 :
几乎必然收敛 :
依分布收敛 :
依均值 收敛 :
收敛模式的层次关系:
但以上蕴含关系在反方向一般不成立。
收敛的反例
- 依分布收敛但不依概率收敛:设 以概率 等于 ,以概率 等于 0。则 ,但 不成立。
- 依概率收敛但不几乎必然收敛:构造依赖独立事件的序列,使得收敛在每个固定点上都不发生。
9.2 Borel-Cantelli引理
Borel-Cantelli引理是分析”事件无限发生”的关键工具。
第一引理:若 ,则 。
第二引理:若 相互独立且 ,则 。
强大数定律的证明思路
Borel-Cantelli引理是证明强大数定律的关键工具。由独立性和适当的尾部估计可得: 这正是强大数定律的结论。
9.3 中心极限定理的深入分析
林德伯格-费勒中心极限定理:
设 是独立但不一定同分布的随机变量,满足:
- ,
- 林德伯格条件:对任意 , 其中
则:
林德伯格条件的意义:没有单个观测值对总和的方差贡献过大。这推广了独立同分布CLT到异方差情形。
李雅普诺夫定理:若存在 使
则CLT成立。 Lyapunov条件是林德伯格条件的充分条件。
9.4 重对数律
重对数律给出了部分和波动范围的精确刻画,比大数定律更细致。
科尔莫戈罗夫重对数律:
设 独立同分布,,,则:
Hartman-Wintner重对数律:
仅需 ,,且 是独立的(有界方差)。
十、随机微积分初步
10.1 布朗运动
布朗运动(Wiener过程) 是连续时间随机过程的基础构建块。
定义:
- 独立增量:
- 轨道连续
布朗运动的性质:
- 是严平稳过程
- ,
- 协方差:
- 路径处处不可微(几乎必然)
二次变差:
这是伊藤积分理论的基础。
10.2 伊藤积分
伊藤积分是针对布朗运动的随机积分定义。
设 是适应过程( 时刻的信息仅依赖于 之前),定义:
关键区别于普通微积分:被积函数在区间的左端点取值。
伊藤积分的性质:
- 线性性
- 鞅性:
- 等距性:
10.3 伊藤引理
伊藤引理是随机微积分中的链式法则:
设 ,即:
若 是二次连续可微函数,则:
其中 ,,。
因此:
几何布朗运动
设 (股票价格模型),则: 因此 这正是Black-Scholes期权定价模型的基础。
10.4 随机微分方程
**随机微分方程(SDE)**的形式:
解的存在唯一性:若 和 满足Lipschitz条件和线性增长条件,则存在唯一强解。
** Ornstein-Uhlenbeck过程**(Ornstein-Uhlenbeck Process):
解析解:
OU过程是均值回归过程的代表,在金融(利率模型)和物理(过阻尼粒子)中广泛应用。
十一、熵与信息论基础
11.1 信息熵的公理化
信息熵由香农(Shannon)于1948年提出,定义为:
约定 。通常使用 (比特)或自然对数(纳特)。
熵的公理化基础(Khinchin 1957):
- 是 的连续函数
- 若所有 ,则 随 单调递增
满足这三条公理的唯一形式是 Shannon 熵(带常数因子)。
11.2 联合熵与条件熵
联合熵:
条件熵(条件期望的形式):
链式法则:
因此:
互信息衡量两个随机变量共享的信息量:
11.3 KL散度
KL散度(相对熵)衡量两个分布的”距离”:
KL散度的性质:
- 非负性:(吉布斯不等式)
- 非对称性:
- 当且仅当
KL散度不是度量
KL散度不满足三角不等式,因此不是严格意义上的距离。但它是一个有效的”散度”,在变分推断中被广泛使用。
与互信息的关系:
条件KL散度的链式法则:
11.4 最大熵原理
最大熵原理:在所有满足已知约束的分布中,熵最大的分布是最”客观”的分布。
最大熵分布:
| 约束 | 最大熵分布 |
|---|---|
| ,无其他约束 | 均匀分布 |
| 固定均值 , | 指数分布 |
| 固定均值 ,方差 | 正态分布 |
| 固定均值 ,固定 当 ,离散 | 泊松分布 |
最大熵与均匀分布
在离散情形,熵在均匀分布 时取得最大值: 这说明均匀分布是最”无偏”的分布,在没有其他信息时应该选用。
十二、极值理论初步
12.1 极值分布的类型
设 独立同分布,定义:
Fisher-Tippett-Gnedenko定理:标准化后的最大值分布收敛到以下三种极值分布之一:
-
Gumbel分布(Type I):
-
Fréchet分布(Type II):
-
Weibull分布(Type III):
**广义极值分布(GEV)**统一了以上三种:
- :Fréchet型(重尾)
- :Gumbel型(指数尾)
- :Weibull型(有界尾)
12.2 广义帕累托分布
**广义帕雷托分布(GPD)**描述超过某个阈值的超额分布:
超过阈值方法(Peaks Over Thresholds, POT):
- 超过高阈值 的超额部分
- 当 足够高时, 近似服从GPD
这在金融风险管理和水文统计中广泛应用。
12.3 极值理论与风险管理
VaR(Value at Risk):
Expected Shortfall(ES):
ES比VaR更满足一致性公理(Artzner等人1999),是更好的风险度量。
极值理论在金融中的应用:
- 极端市场波动建模
- 保险索赔分布
- 操作风险建模
十三、概率论在机器学习中的高级应用
13.1 变分推断
变分推断(Variational Inference)将后验分布的近似问题转化为优化问题。
设真实后验 难以计算,引入近似分布 :
这等价于最大化证据下界(ELBO):
平均场变分族:
这使得每个 的最优解可以迭代更新。
ELBO的分解
由于 是常数,最小化KL散度等价于最大化ELBO。ELBO也是对数边际似然的下界。
13.2 期望传播
期望传播(Expectation Propagation, EP)是另一种近似推断方法。
核心思想:用因子分解的分布 近似后验。
迭代过程:
- 迷向近似:移除某个因子
- 精确更新:计算移除后的分布与原始似然的乘积
- 矩匹配:将乘积分布投影回因子分解形式
EP在高斯过程分类和贝叶斯模型平均中广泛应用。
13.3 蒙特卡洛方法
蒙特卡洛方法通过随机采样来估计期望:
重要性采样:
其中 是重要性权重, 是提议分布。
马尔可夫链蒙特卡洛(MCMC):
当直接采样困难时,MCMC通过构造马尔可夫链来生成样本:
- Metropolis-Hastings算法:接受-拒绝机制
- Gibbs采样:逐变量条件采样
- Hamiltonian MC:利用梯度信息的更高效采样
13.4 高斯过程
高斯过程是函数空间的贝叶斯推断工具。
定义: 是高斯过程,若对任意有限点集 ,
其中 是核函数矩阵。
高斯过程回归:
设观测模型 ,。
预测分布:
其中:
高斯过程提供:
- 函数值的点估计
- 不确定性量化(预测方差)
- 自动相关性选择(通过核函数)
十四、概率论高级专题
14.1 随机矩阵理论
随机矩阵理论研究随机矩阵的特征值分布,在多用户通信和金融风险中应用广泛。
Wigner矩阵:对称随机矩阵,上三角元素独立同分布(次对角线方差为1)。
半圆定律(Wigner, 1955): 设 是 Wigner矩阵,归一化后的经验谱分布收敛到密度:
这是著名的”半圆”分布。
Marchenko-Pastur定律: 对于随机样本协方差矩阵,当 且 :
其中 ,。
金融协方差矩阵
经验协方差矩阵在资产数量大于时间序列长度时是病态的。随机矩阵理论提供了判别”信号”与”噪声”的理论框架,帮助识别真实的市场相关性。
14.2 随机过程的高级专题
莱维过程:
莱维过程是独立平稳增量的随机过程,包括:
- 布朗运动
- 泊松过程
- 稳定过程(-stable processes)
莱维过程可以分解为:
其中 是跳跃部分。
分数布朗运动:
具有长期记忆性质的随机过程:
- Hurst参数
- :长程依赖(持续性)
- :反持续性
- :普通布朗运动
分数布朗运动不是半鞅,不能直接使用标准伊藤积分。
14.3 概率不等式
Hoeffding不等式(独立有界随机变量):
McDiarmid不等式(浓度不等式): 若 的改变一个坐标的函数值变化有界,则:
Azuma不等式(鞅浓度): 若 是鞅,增量有界,则:
这些不等式在PAC学习和在线学习的泛化界推导中至关重要。
14.4 概率与几何
概率测度的收敛:
- 弱收敛: 等价于 对所有有界连续
- Wasserstein距离:
- Wasserstein距离在最优传输和生成模型(如WGAN)中起核心作用
随机几何:
- 泊松点过程:空间随机性建模
- 随机图:Erdős-Rényi图,配置模型
- 渗流理论:网格上的随机连通性
十五、概率测度的收敛与弱收敛
15.1 测度论基础回顾
概率测度是定义在可测空间 上的测度,满足 。
勒贝格积分提供了比黎曼积分更一般的积分定义:
其中 是分布函数。
Radon-Nikodym导数: 若 ( 对 绝对连续),则存在 使得:
15.2 弱收敛的严格定义
分布函数视角: 当且仅当 在 的连续点上。
概率测度视角:
其中 是有界连续函数空间。
Portmanteau定理:以下等价
- 对任意闭集 ,
- 对任意开集 ,
- 对任意Borel集 且 ,
15.3 Prohorov定理
Prohorov定理:概率测度族 相对紧当且仅当它是胎紧的(tight)。
胎紧性:对任意 ,存在紧集 使得 对所有 。
应用:证明随机变量序列存在收敛子列。
15.4 随机过程的弱收敛
Donsker不变原理:
设 是独立同分布随机变量,均值为0,方差为1,则:
其中 是标准布朗运动。
这是泛函中心极限定理(Functional CLT)。
Skorokhod表示定理: 若 ,存在定义在另一概率空间上的随机变量 使得 几乎必然,且 ,。
十六、随机过程的精细结构
16.1 布朗运动的建构
标准布朗运动可以通过多种方式建构:
Riesz表示:
其中 是独立同分布随机变量。
Lévy-Ciesielski建构: 使用Haar小波基展开:
其中 是Haar小波函数。
16.2 鞅论基础
鞅(Martingale)是公平博弈的数学模型。
下鞅:
上鞅:
Doob分解: 任意下鞅可以唯一分解为:
其中 是鞅, 是可预测增量的增过程。
16.3 停时与可选采样定理
停时 :
可选采样定理:若 是右连续鞅,则:
对任意有界停时 成立。
Doob不等式:
不等式:
16.4 布朗运动的精细性质
布朗运动的Hausdorff维数:轨道几乎必然是1/2维的。
布朗运动的局部时:
局部时描述了布朗运动在点 停留的时间密度。
布朗运动的重分形性质:
十七、高级极限定理
17.1 稳定分布与吸引域
稳定分布的吸引域(Domain of Attraction):
若 独立同分布,存在常数 使得:
其中 服从稳定分布。
稳定分布的参数化:
稳定分布 :
- :特征指数
- :尺度参数
- :偏度参数
- :位置参数
特例:
- :正态分布
- :柯西分布
- :Lévy分布
17.2 广义中心极限定理
广义中心极限定理:
若 服从稳定分布 ,则:
幂律分布的极限定理:
17.3 大偏差理论
大偏差原理(Large Deviations Principle):
设 ,则:
其中 是速率函数。
Cramér定理:
17.4 中偏差与局部极限定理
中偏差原理:
在典型事件和小概率事件之间,存在”中偏差”区域。
局部极限定理:
这比普通CLT给出更精确的近似。
十八、概率论的哲学与历史
18.1 概率解释的争论
频率主义:
- 概率是无限重复实验的相对频率极限
- 代表人物:von Mises, Reichenbach
- 批评:无法处理单次事件的概率
主观主义(贝叶斯):
- 概率是主观信念的程度
- 代表人物:de Finetti, Savage, Ramsey
- 批评:过于依赖个人判断
倾向主义:
- 概率是事物固有的倾向或能力
- 代表人物:Karl Popper
- 适用于物理概率
集合解释:
- 概率描述可能世界的客观结构
- 代表人物:Carnap
18.2 Kolmogorov公理体系的影响
Kolmogorov 1933年的著作奠定了现代概率论的基础。
公理化的意义:
- 将概率论建立在坚实的数学基础上
- 统一了离散和连续概率论
- 使得概率论能够进行严格的形式化推理
公理化的局限性:
- 没有规定概率的具体解释
- 没有说明如何选择概率模型
- 无法处理无穷维概率空间
18.3 现代概率论的发展
鞅论(Doob):
- 将经典概率论推广到连续时间
- 建立了随机分析的基础
随机过程的一般理论(Kolmogorov):
- 建立了有限维分布族决定随机过程
- 为马尔可夫过程提供理论基础
Malliavin随机分析:
- 在函数空间上建立微分结构
- 在金融数学中有重要应用
18.4 概率论与其他数学领域的交叉
概率与数论:
- 哥德巴赫猜想的大数偏差
- 素数分布的概率模型
概率与组合数学:
- 随机图论
- 随机矩阵
概率与物理:
- 统计力学
- 量子信息
十九、点过程理论
19.1 点过程的基本概念
点过程是在空间中随机分布的点的集合。
泊松点过程(PPP):
在区域 中的点数 ,且对不相交区域独立。
强度函数 :
19.2 条件强度模型
条件强度函数:
用于建模自激发过程(如Hawkes过程)。
Hawkes过程:
- :基强度
- :兴奋核参数
19.3 空间点过程
空间泊松过程:
- 在 中均匀分布
- 点间距离的分布由Ripley’s K函数刻画
K函数:
19.4 点过程的应用
神经科学:神经元发放时间建模
金融:高频交易事件建模
生态学:物种分布分析
通信网络:无线网络干扰建模
二十、概率极限理论与极端值
20.1 稳定分布的深度分析
稳定分布的吸引域:
若 i.i.d. 属于某分布 ,若存在规范化常数 使:
则 在 的吸引域内。
吸引域的特征:
- :正态域(有限的方差)
- :吸引域包含分布,其特征函数满足
- :柯西域
- :无均值
20.2 极值指数估计
极值指数 :
- :Fréchet型(重尾)
- :Gumbel型(指数尾)
- :Weibull型(有界尾)
Hill估计量:
20.3 极端值风险度量
广义帕累托分布(GPD):
阈值选择:
- 经验分位数图
- 平均超出量函数图
20.4 极值理论的计算方法
块极大值方法(BMM):
- 将数据分成块
- 提取每块最大值
- 拟合GEV分布
超过阈值方法(POT):
- 选择阈值
- 对超额量拟合GPD
- 估计尾部分布
二十一、随机过程的高级专题
21.1 莱维过程
莱维过程 :
- 独立增量
- 平稳增量
- 轨道右连续且有左极限(càdlàg)
Lévy-Khintchine公式:
其中 是Lévy三指标。
21.2 稳定过程
-稳定过程 :
- 自相似指数
- 平稳增量
- 重尾( 有 阶矩 iff ,但实际上稳定分布通常 )
Sato进程:稳定过程的随机时间变化。
21.3 分数布朗运动
分数布朗运动 :
- 均值为0
- 协方差:
- Hurst指数
长程依赖:
- :长程正相关
- :长程负相关
- :普通布朗运动
21.4 随机微分方程的数值解
Euler-Maruyama方法:
Milstein方法:
强收敛 vs 弱收敛:
- 强收敛:路径逼近
- 弱收敛:分布逼近
二十二、信息论高级专题
22.1 率失真理论
率失真函数 :
失真度量 :
- 平方误差:
- Hamming失真:用于离散数据
22.2 信道容量
离散无记忆信道容量:
高斯信道容量:
多输入多输出(MIMO)信道:
22.3 网络信息论
广播信道容量区域:
- 已知内界和外界的表达
- 一般情况未完全解决
中继信道容量:
22.4 信息论与统计推断
最小描述长度(MDL):
等价于 BIC 准则。
信息瓶颈:
二十三、概率与金融数学
23.1 金融模型的概率基础
资产价格 :
- 几何布朗运动模型:
- 离散时间模型:
收益率:
- 简单收益率:
- 对数收益率:
23.2 Black-Scholes框架
Black-Scholes偏微分方程:
期权定价公式:
23.3 风险度量
VaR(Value at Risk):
Expected Shortfall:
Coherent风险度量(Artzner等):
- 次可加性
- 正齐次性
- 单调性
- 平移不变性
23.4 信用风险模型
违约概率模型:
强度模型:
Copula模型:
二十四、概率论在机器学习中的前沿应用
24.1 深度生成模型
变分自编码器(VAE):
生成对抗网络(GAN):
归一化流:
24.2 贝叶斯深度学习
贝叶斯神经网络:
变分推断近似:
不确定性估计:
- 认知不确定性(epistemic)
- 偶然不确定性(aleatoric)
24.3 图模型与消息传递
信念传播:
变分消息传递:
24.4 强化学习中的概率方法
策略梯度:
Actor-Critic方法:
- Actor:策略梯度更新
- Critic:价值函数估计
贝叶斯优化:
参考文献
- Kolmogorov, A. N. (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung. Springer-Verlag.
- Billingsley, P. (1995). Probability and Measure (3rd ed.). Wiley.
- Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury Press.
- Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press.
- Durrett, R. (2019). Probability: Theory and Examples (5th ed.). Cambridge University Press.
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
- Øksendal, B. (2003). Stochastic Differential Equations: An Introduction (6th ed.). Springer.
- MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press.
- Anderson, T. W. (2003). An Introduction to Multivariate Statistical Analysis (3rd ed.). Wiley.
- Karatzas, I., & Shreve, S. E. (1991). Brownian Motion and Stochastic Calculus (2nd ed.). Springer.
- Jacod, J., & Shiryaev, A. N. (2003). Limit Theorems for Stochastic Processes (2nd ed.). Springer.
- Dembo, A., & Zeitouni, O. (2010). Large Deviations Techniques and Applications (2nd ed.). Springer.
- Samorodnitsky, G., & Taqqu, M. S. (1994). Stable Non-Gaussian Random Processes. Chapman & Hall.
- de Finetti, B. (1974). Theory of Probability (2 vols.). Wiley.
- Daley, D. J., & Vere-Jones, D. (2008). An Introduction to the Theory of Point Processes (2nd ed.). Springer.
- Resnick, S. I. (2007). Heavy-Tail Phenomena: Probabilistic and Statistical Modeling. Springer.
- Cont, R., & Tankov, P. (2004). Financial Modelling with Jump Processes. Chapman & Hall.
- Kingman, J. F. C. (1993). Poisson Processes. Oxford University Press.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.