概率论深度指南
文档概述
本文档系统梳理概率论的核心知识体系,涵盖从公理化基础到高级概率分布族的完整理论框架,为机器学习与人工智能研究提供坚实的数学基础。
关键词
| 序号 | 关键词 | 英文 | 核心概念 |
|---|---|---|---|
| 1 | 概率空间 | Probability Space | |
| 2 | 随机变量 | Random Variable | |
| 3 | 条件概率 | Conditional Probability | |
| 4 | 贝叶斯定理 | Bayes’ Theorem | |
| 5 | 期望值 | Expectation | |
| 6 | 方差 | Variance | |
| 7 | 协方差 | Covariance | |
| 8 | 大数定律 | Law of Large Numbers | |
| 9 | 中心极限定理 | Central Limit Theorem | |
| 10 | 指数族 | Exponential Family | |
| 11 | 共轭先验 | Conjugate Prior | Beta-Binomial, Dirichlet-Multinomial |
| 12 | 测度论 | Measure Theory | Lebesgue积分基础 |
一、概率空间与公理化体系
1.1 概率论的三元组结构
现代概率论建立在测度论的基础之上,采用公理化方法构建完整的理论体系。概率空间由三元组 定义,这一结构将随机现象的形式化描述提升到了严格的数学高度。
样本空间 表示所有可能基本结果的集合。例如,抛掷一枚均匀硬币的样本空间为 ,其中 表示正面, 表示反面。在连续情形下,掷骰子的样本空间为 。对于连续随机变量,样本空间通常是 的子集。
σ-代数 (也称σ-域)是样本空间上满足特定条件的子集族。 必须满足:
- (包含空集)
- 若 ,则 (对补运算封闭)
- 若 ,则 (对可数并封闭)
σ-代数的引入是为了定义可测集,从而确保概率可以良定义地赋予每个事件。Borel σ-代数 是实数轴上最重要的σ-代数,由所有开区间生成。
概率测度 满足Kolmogorov公理:
- 非负性:对任意 ,
- 归一性:
- 可数可加性:若 两两不相交,则
古典概型的概率计算
若样本空间有 个等可能基本结果,事件 包含 个基本结果,则 。例如,从52张扑克牌中抽取一张,抽到红心的概率为 。
1.2 条件概率与乘法公式
在已知部分信息的情况下更新概率估计,是概率论应用于统计推断的核心操作。条件概率定义为:
这一公式的几何直观是:在事件 发生的条件下, 发生的概率等于 在 中所占的比例。
由条件概率公式可直接导出乘法公式:
对于多个事件,链式法则给出:
独立性检验
事件 与 相互独立当且仅当 。若 ,这等价于 。独立性是概率论中最强的非平凡假设之一,在实际建模中需要谨慎验证。
二、贝叶斯定理与统计推断基础
2.1 贝叶斯定理的导出
贝叶斯定理是概率论中最为重要的公式之一,它建立了先验知识与观测数据之间的桥梁。由条件概率的定义出发:
展开全概率公式中的 :
得到贝叶斯定理的标准形式:
在统计学的参数估计语境下,贝叶斯定理写作:
其中:
- 是先验概率(Prior),编码了参数 的先验知识
- 是似然函数(Likelihood),表示在参数 下观测到数据 的概率
- 是后验概率(Posterior),是在观测数据 后对参数 的更新认知
- 是边际似然(Marginal Likelihood),作为归一化常数确保后验分布积分为1
2.2 贝叶斯推断的哲学意义
贝叶斯方法的核心思想是:学习是一个迭代的过程。观测数据不断更新我们对世界的认知,而先验分布则编码了历史经验和领域知识。这种”先验→数据→后验”的范式与人类认知过程高度一致。
在机器学习中,贝叶斯方法的优势体现在:
- 不确定性量化:后验分布本身包含了关于参数的完整不确定性信息
- 正则化效应:先验分布防止过拟合,尤其在数据稀缺时效果显著
- 模型选择:边际似然可以自然地进行模型比较
计算挑战
对于复杂模型,后验分布 通常没有解析形式。常用近似方法包括:马尔可夫链蒙特卡洛(MCMC)、变分推断(VI)、拉普拉斯近似等。
三、随机变量与概率分布
3.1 离散随机变量
设 是定义在概率空间 上的随机变量,若 只取有限或可数无限个值,则称为离散随机变量。概率质量函数(PMF)定义为 ,满足 和 。
伯努利分布 :
二项分布 :
泊松分布 :
泊松分布是二项分布的极限形式,当 很大、 很小时,。这使得泊松分布在稀有事件建模(如网站访问、放射性衰变)中极为有用。
3.2 连续随机变量
概率密度函数(PDF) 满足:
- 对所有
累积分布函数(CDF)定义为 。
正态分布(高斯分布):
正态分布在概率论中占据核心地位,其重要性由中心极限定理保证。
指数分布 :
指数分布具有无记忆性:,这使其成为描述等待时间的自然选择。
拉普拉斯分布 :
拉普拉斯分布在机器学习中常作为稀疏模型的先验分布(对应L1正则化)。
四、数字特征:期望、方差、协方差
4.1 期望值
离散情形:
连续情形:
期望算子具有线性性:,这一性质在推导统计量性质时极为重要。
条件期望 是 的函数,定义为:
条件期望具有”tower property”(塔性质):
这一性质是迭代期望定理的核心,在处理分层数据和缺失数据时非常有用。
4.2 方差与标准差
方差衡量随机变量偏离其均值的程度:
标准差 与原变量量纲相同,更易解释。
对于独立随机变量 和 :
方差不是线性的,这是与期望的根本区别。
4.3 协方差与相关系数
协方差衡量两个随机变量的联合变异程度:
相关系数是协方差的归一化版本:
相关系数 ,其中 意味着完全线性相关, 意味着不相关(但不一定独立!)。
相关与独立
独立必然导致不相关,但不相关不一定独立。例如,若 且 ,则 但 与 显然不独立。
4.4 协方差矩阵
对于 维随机向量 ,协方差矩阵定义为:
协方差矩阵是半正定对称矩阵,其特征值非负,在机器学习的很多算法(如PCA、主成分分析)中起核心作用。
五、极限定理
5.1 大数定律
弱大数定律(辛钦大数定律):设 是独立同分布的随机变量, 存在,则:
即样本均值依概率收敛到总体均值。
强大数定律:在相同条件下,样本均值几乎必然收敛到 :
大数定律是蒙特卡洛方法的理论基础:可以通过大量随机采样的均值来估计期望值。
5.2 中心极限定理
中心极限定理(CLT)是概率论中最令人惊叹的结果之一:
设 是独立同分布的随机变量,,,则:
其中 是标准正态分布的累积分布函数。
CLT的深远意义
无论原始分布是什么(只要方差有限),标准化后的样本均值都趋近于正态分布。这解释了为什么正态分布在自然界中如此普遍——大量微小独立因素叠加的结果就是正态分布。CLT也是统计推断的理论基础:置信区间、假设检验等都依赖于正态性假设。
六、概率分布族
6.1 指数族分布
指数族是机器学习中最重要的分布族,其统一形式为:
其中:
- 是基础测度(不依赖参数)
- 是自然参数
- 是充分统计量
- 是对数配分函数(确保归一化)
指数族的重要成员包括:
- 正态分布
- 伯努利分布
- 二项分布
- 泊松分布
- Gamma分布
- Beta分布
- Dirichlet分布
指数族具有以下优良性质:
- 充分统计量:数据可以用固定维度的充分统计量压缩
- 共轭先验存在:便于贝叶斯推断
- 对数凸性:便于优化
- 梯度结构简单:
6.2 共轭先验
在贝叶斯推断中,若先验分布 与似然函数 的乘积正比于同一分布族,则称该先验为共轭先验。共轭先验使得后验分布具有解析形式,避免了复杂的数值计算。
| 似然分布 | 共轭先验 | 后验参数更新 |
|---|---|---|
| Bernoulli() | Beta() | |
| Binomial() | Beta() | |
| Poisson() | Gamma() | |
| Normal()(已知) | Normal() | 后验仍为正态 |
Beta-Bernoulli共轭
设先验 ,观测数据 ,则后验: 后验均值 是先验均值 与样本均值 的加权平均。
参考文献
- Kolmogorov, A. N. (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung. Springer-Verlag.
- Billingsley, P. (1995). Probability and Measure (3rd ed.). Wiley.
- Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury Press.
- Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press.