统计学深度指南

文档概述

本指南系统梳理统计学从经典频率学派到现代贝叶斯学派的完整理论体系，涵盖点估计、区间估计、假设检验、参数估计方法以及EM算法等核心内容，为数据科学与机器学习提供方法论基础。

关键词

序号	关键词	英文	核心公式
1	频率学派	Frequentist	基于重复抽样的推断
2	贝叶斯学派	Bayesian	$P (θ ∥ X) \propto P (X ∥ θ) P (θ)$
3	点估计	Point Estimation	$\hat{θ} = ar g max_{θ} L (θ)$
4	区间估计	Interval Estimation	$[\hat{θ} - z_{α /2} \cdot SE, \hat{θ} + z_{α /2} \cdot SE]$
5	假设检验	Hypothesis Testing	$H_{0} : θ = θ_{0}$ vs $H_{1} : θ \neq = θ_{0}$
6	p值	p-value	$P (T (X) \geq t_{o b s} ∥ H_{0})$
7	最大似然估计	MLE	$\hat{θ}_{M L E} = ar g max_{θ} \prod_{i} p (x_{i} ∥ θ)$
8	EM算法	EM Algorithm	$Q (θ ∥ θ^{(t)}) = E_{Z ∥ X, θ^{(t)}} [lo g P (X, Z ∥ θ)]$
9	置信区间	Confidence Interval	$P (θ \in C I) = 1 - α$
10	似然比检验	Likelihood Ratio Test	$Λ (x) = \frac{s u p _{θ \in Θ_{0}} L ( θ )}{s u p _{θ \in Θ} L ( θ )}$
11	费舍尔信息	Fisher Information	$I (θ) = - E [\frac{\partial ^{2} l o g L}{\partial θ ^{2}}]$
12	充分统计量	Sufficient Statistic	$p (x ∥ T (x), θ) = p (x ∥ T (x))$

一、统计学派别之争：频率学派 vs 贝叶斯学派

1.1 哲学基础的分歧

统计学历史上最深刻的争论发生在频率学派（Frequentist）与贝叶斯学派（Bayesian）之间，这一争论的本质是对”概率”本质的不同理解。

频率学派将概率解释为长期频率。在这个框架下，未知参数 $θ$ 是固定的常数，“概率”只能应用于可重复随机实验的长期频率。置信区间的解释是：若重复抽样100次，约95次包含真实参数值。代表性人物包括Fisher、Neyman和Pearson。

贝叶斯学派将概率解释为主观信念度。参数 $θ$ 被视为随机变量，可以用概率分布描述。在观测数据前，参数服从先验分布 $p (θ)$ ；观测数据后，根据贝叶斯定理更新为后验分布 $p (θ ∣ X)$ 。

Jeffreys (1939) 的经典表述

“Every increase in knowledge may be supposed to decrease the entropy, that is to say, the disorder of our probability distribution.”

1.2 两种方法的形式化对比

频率学派方法：

目标：估计未知参数 $θ$ 的点值或构造置信区间
工具：样本均值 $\overset{ˉ}{X}$ 、样本方差 $S^{2}$ 、枢轴量
评估标准：无偏性 $E [\hat{θ}] = θ$ 、有效性（方差最小）、一致性

贝叶斯方法：

目标：获得参数的后验分布 $p (θ ∣ X)$
工具：贝叶斯定理、先验分布、后验预测分布
评估标准：可信区间（直接给出参数落在某区间的概率）

方面	频率学派	贝叶斯学派
参数性质	固定未知常数	随机变量
概率解释	长期频率	主观信念
先验信息	通常忽略	显式编码
置信区间	覆盖概率	直接概率解释
计算复杂度	通常较低	通常较高

1.3 实用主义视角

现代统计实践中，两种方法各有优劣：

频率学派优势：计算简单，不需要先验选择，客观性较强
贝叶斯优势：自然融合先验信息，不确定性量化完整，可处理复杂层次模型

经验贝叶斯（Empirical Bayes）在两者之间架起桥梁：用数据来估计先验超参数，既保留了贝叶斯框架的灵活性，又减少了主观性。

二、点估计与区间估计

2.1 点估计的基本概念

点估计是用一个具体数值 $\hat{θ}$ 来估计未知参数 $θ$ 的方法。

评价标准：

无偏性： $E [\hat{θ}] = θ$
- 样本均值 $\overset{ˉ}{X}$ 是总体均值 $μ$ 的无偏估计
- 样本方差 $S^{2} = \frac{1}{n - 1} \sum (X_{i} - \overset{ˉ}{X})^{2}$ 是 $σ^{2}$ 的无偏估计（注意除以 $n - 1$ 而非 $n$ ）
有效性：在所有无偏估计中，方差最小者为有效估计
- Cramér-Rao下界给出了无偏估计方差的下限
一致性：当样本量 $n \to \infty$ 时， $\hat{θ}_{n} P θ$
- 一致性保证了估计随数据增加而趋近真实值
均方误差（MSE）： $MSE (\hat{θ}) = E [(\hat{θ} - θ)^{2}] = Var (\hat{θ}) + Bias^{2} (\hat{θ})$
- MSE统一衡量了估计的偏差和方差

2.2 矩估计法

矩估计法（Method of Moments, MoM）通过样本矩匹配总体矩来估计参数。

设总体有 $k$ 个未知参数 $θ_{1}, \dots, θ_{k}$ ，令前 $k$ 阶样本矩等于对应总体矩：

$⎩ ⎨ ⎧ \overset{ˉ}{X} = E [X] \frac{1}{n} \sum X_{i}^{2} = E [X^{2}] ⋮ \frac{1}{n} \sum X_{i}^{k} = E [X^{k}]$

解此方程组即得参数估计。矩估计法简单直观，但通常不如MLE高效。

2.3 区间估计

区间估计给出参数的一个区间范围，同时声明对该区间可靠程度的信心。

置信区间的频率学派定义： $P (θ \in [L (X), U (X)]) = 1 - α$

其中 $[L, U]$ 是置信区间， $1 - α$ 是置信水平（如95%）。

置信区间的常见误解

“95%置信区间”并不意味着”参数有95%的概率落在这个区间内”。正确的解释是：如果重复抽样100次构造置信区间，约95个区间会包含真实参数值。参数的取值是固定的，区间才是随机的。

枢轴量法构造置信区间：

选择一个统计量 $T (X, θ)$ ，其分布不依赖 $θ$
求 $P (a \leq T (X, θ) \leq b) = 1 - α$ 中的 $a, b$
解不等式得到 $θ$ 的区间 $[L, U]$

三、假设检验与p值

3.1 假设检验框架

假设检验是决定是否拒绝原假设 $H_{0}$ 的统计方法。

原假设 $H_{0}$ ：通常表示”无效应”或”现状”
备择假设 $H_{1}$ ：研究者希望证明的命题
检验统计量 $T (X)$ ：汇总数据的函数
拒绝域：使 $H_{0}$ 被拒绝的 $T$ 值区域

两类错误：

错误类型	定义	记作
第一类错误	$H_{0}$ 为真但被拒绝	$\alpha = P(\text{reject } H_0
第二类错误	$H_{0}$ 为假但未拒绝	$\beta = P(\text{fail to reject } H_0

势函数： $π (θ) = P_{θ} (reject H_{0})$ ，描述检验在不同参数值下的拒绝概率。

3.2 p值的精确定义

p值是在原假设成立的前提下，观察到比实际数据更极端结果的概率：

$p-value = P_{H_{0}} (T (X) \geq T (x_{o b s}))$

p值的解读：

小p值（如 $p < 0.05$ ）：在 $H_{0}$ 成立时，观测数据是”小概率事件”，倾向于拒绝 $H_{0}$
大p值：数据与 $H_{0}$ 相符，无法拒绝 $H_{0}$

p值的常见误用

p值不等于” $H_{0}$ 为真的概率”（那是后验概率）

p值不能衡量效应大小或实际重要性

p值具有”可复制性危机”：即使实验设计完美， $p < 0.05$ 的结果中也约有32%是虚假的（假设检验的先验概率为50%）

3.3 似然比检验

似然比检验（Likelihood Ratio Test, LRT）是构造检验的通用方法：

$Λ (x) = \frac{s u p _{θ \in Θ_{0}} L ( θ )}{s u p _{θ \in Θ} L ( θ )}$

Wilks定理表明，在一定正则条件下，当 $H_{0}$ 成立且样本量足够大时：

$- 2 lo g Λ (X) d χ_{df}^{2}$

其中 $df$ 是约束参数的个数。

四、最大似然估计（MLE）

4.1 MLE的定义与性质

最大似然估计是统计学中最重要的估计方法之一。设观测数据 $X = (x_{1}, \dots, x_{n})$ 来自密度 $p (x ∣ θ)$ ，似然函数定义为：

$L (θ ∣ X) = \prod_{i = 1}^{n} p (x_{i} ∣ θ)$

对数似然为便于计算：

$ℓ (θ ∣ X) = lo g L (θ ∣ X) = \sum_{i = 1}^{n} lo g p (x_{i} ∣ θ)$

MLE定义为： $\hat{θ}_{M L E} = ar g max_{θ \in Θ} L (θ ∣ X) = ar g max_{θ \in Θ} ℓ (θ ∣ X)$

MLE的优良性质：

一致性： $\hat{θ}_{M L E} P θ$ 当 $n \to \infty$
渐近正态性： $n (\hat{θ}_{M L E} - θ) d N (0, I (θ)^{- 1})$
- 其中 $I (θ) = - E [\frac{\partial ^{2} l o g p ( X ∣ θ )}{\partial θ ^{2}}]$ 是费舍尔信息
渐近有效性：在正则条件下，MLE达到Cramér-Rao下界
不变性：若 $\hat{θ}$ 是 $θ$ 的MLE，则 $g (\hat{θ})$ 是 $g (θ)$ 的MLE

4.2 MLE的计算方法

解析求解：对数似然求导令其为零 $\frac{\partial ℓ ( θ )}{\partial θ} = 0$

数值优化：对于复杂模型，使用：

牛顿-拉夫森法（Newton-Raphson）
Fisher得分法（Fisher Scoring）
EM算法（见下节）
梯度下降法

正态分布参数的MLE

设 $X_{i} \sim N (μ, σ^{2})$ ，则：

$\overset{μ}{^}_{M L E} = \overset{ˉ}{X}$ （样本均值）

$\overset{σ}{^}_{M L E}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ （注意除以 $n$ 而非 $n - 1$ ，是有偏的）

虽然 $\overset{σ}{^}_{M L E}^{2}$ 有偏，但它仍是 $σ^{2}$ 的MLE。修正偏差后得到无偏估计 $S^{2}$ 。

五、EM算法详解

5.1 隐变量的引入

EM算法（Expectation-Maximization）专门用于处理隐变量（latent variable）模型。当数据中存在不可观测的隐变量 $Z$ 时，直接最大化似然函数往往困难重重。

观测数据的似然： $L (θ ∣ X) = \int L (θ ∣ X, Z) p (Z ∣ X, θ^{(t)}) d Z$

直接计算这个积分通常不可行。

5.2 EM的两步迭代

E步（Expectation）：计算隐变量后验分布下的期望对数似然 $Q (θ ∣ θ^{(t)}) = E_{Z ∣ X, θ^{(t)}} [lo g p (X, Z ∣ θ)]$

M步（Maximization）：最大化 $Q$ 函数得到新参数 $θ^{(t + 1)} = ar g max_{θ} Q (θ ∣ θ^{(t)})$

EM算法的关键洞察：直接优化 $p (X ∣ θ)$ 困难，但优化完整数据似然 $p (X, Z ∣ θ)$ 加上隐变量的期望往往容易。

5.3 EM的收敛性

EM算法单调收敛到局部最优解（不是全局最优）。每次迭代保证： $L (θ^{(t + 1)} ∣ X) \geq L (θ^{(t)} ∣ X)$

EM的几何直观

可以将EM视为在似然曲面上交替进行”上升”（E步找到更好的下界）和”最大化”（M步移动到下界的峰值）。这就是为什么EM属于坐标上升方法。

5.4 EM的变体

变体	改进
GEM（广义EM）	M步只需增加 $Q$ 函数值，不必全局最大化
ECM（期望条件最大化）	在约束条件下交替最大化各参数
ECME（ECM扩展）	使用更快的似然值更新
ECMM（期望条件最大化替代）	使用不同的充分统计量更新
PX-EM（参数扩展EM）	引入扩展参数空间加速收敛

硬币实验的EM算法

假设有两枚硬币A和B，正面概率不同。观测数据是混合的抛掷结果（不知道每次用哪枚硬币）。EM算法通过迭代：E步估计每次抛掷使用各硬币的概率，M步用这些概率更新硬币的正面概率。

六、贝叶斯统计基础

6.1 先验分布的选择

无信息先验（Non-informative Prior）：

拉普拉斯先验：均匀分布 $p (θ) \propto 1$
Jeffreys先验： $p (θ) \propto I (θ)$ （费舍尔信息的平方根）
Reference Prior：在特定条件下使得后验分布最大程度反映数据信息

共轭先验：后验分布与先验分布属于同一分布族，便于计算（详见概率论深度指南）。

层次先验：先验本身带有超参数， $p (θ ∣ α)$ ，超参数 $α$ 又有自己的先验 $p (α)$ ，形成层次结构。

6.2 后验推断

点估计：

后验均值： $\hat{θ}_{m e an} = E [θ ∣ X]$
后验中位数： $\hat{θ}_{m e d ian}$ 满足 $\int_{- \infty}^{\hat{θ}_{m e d ian}} p (θ ∣ X) d θ = 0.5$
后验众数（MAP估计）： $\hat{θ}_{M A P} = ar g max_{θ} p (θ ∣ X)$

后验可信区间（Credible Interval）： $P (θ \in [a, b] ∣ X) = \int_{a}^{b} p (θ ∣ X) d θ = 1 - α$

贝叶斯可信区间的解释比频率学派置信区间更直观：参数落在该区间的后验概率为 $1 - α$ 。

6.3 贝叶斯因子

贝叶斯因子（Bayes Factor）用于比较两个假设：

$B_{10} = \frac{P ( X ∣ H _{1} )}{P ( X ∣ H _{0} )} = \frac{\int P ( H _{1} ∣ θ ) p ( θ ) d θ}{\int P ( H _{0} ∣ θ ) p ( θ ) d θ}$

贝叶斯因子的解读：

$B_{10}$	证据强度
1-3	微弱
3-10	中等
10-30	强
30-100	很强
> 100	决定性

BIC与贝叶斯因子的联系

当先验为适当先验时， $2 lo g B_{10} \approx BIC_{0} - BIC_{1}$ ，即贝叶斯因子近似于两个模型的BIC差。这为模型选择提供了实用方法。

参考文献

Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury Press.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press.
McLachlan, G. J., & Krishnan, T. (2008). The EM Algorithm and Extensions (2nd ed.). Wiley.
Wasserman, L. (2010). All of Statistics: A Concise Course in Statistical Inference. Springer.

人工智能知识库

探索

统计学深度指南

统计学深度指南

关键词

一、统计学派别之争：频率学派 vs 贝叶斯学派

1.1 哲学基础的分歧

1.2 两种方法的形式化对比

1.3 实用主义视角

二、点估计与区间估计

2.1 点估计的基本概念

2.2 矩估计法

2.3 区间估计

三、假设检验与p值

3.1 假设检验框架

3.2 p值的精确定义

3.3 似然比检验

四、最大似然估计（MLE）

4.1 MLE的定义与性质

4.2 MLE的计算方法

五、EM算法详解

5.1 隐变量的引入

5.2 EM的两步迭代

5.3 EM的收敛性

5.4 EM的变体

六、贝叶斯统计基础

6.1 先验分布的选择

6.2 后验推断

6.3 贝叶斯因子

参考文献

相关文档

关系图谱

目录