统计学深度指南

文档概述

本指南系统梳理统计学从经典频率学派到现代贝叶斯学派的完整理论体系，涵盖点估计、区间估计、假设检验、参数估计方法以及EM算法等核心内容，为数据科学与机器学习提供方法论基础。

关键词

序号	关键词	英文	核心公式
1	频率学派	Frequentist	基于重复抽样的推断
2	贝叶斯学派	Bayesian	$P (θ ∥ X) \propto P (X ∥ θ) P (θ)$
3	点估计	Point Estimation	$\hat{θ} = ar g max_{θ} L (θ)$
4	区间估计	Interval Estimation	$[\hat{θ} - z_{α /2} \cdot SE, \hat{θ} + z_{α /2} \cdot SE]$
5	假设检验	Hypothesis Testing	$H_{0} : θ = θ_{0}$ vs $H_{1} : θ \neq = θ_{0}$
6	p值	p-value	$P (T (X) \geq t_{o b s} ∥ H_{0})$
7	最大似然估计	MLE	$\hat{θ}_{M L E} = ar g max_{θ} \prod_{i} p (x_{i} ∥ θ)$
8	EM算法	EM Algorithm	$Q (θ ∥ θ^{(t)}) = E_{Z ∥ X, θ^{(t)}} [lo g P (X, Z ∥ θ)]$
9	置信区间	Confidence Interval	$P (θ \in C I) = 1 - α$
10	似然比检验	Likelihood Ratio Test	$Λ (x) = \frac{s u p _{θ \in Θ_{0}} L ( θ )}{s u p _{θ \in Θ} L ( θ )}$
11	费舍尔信息	Fisher Information	$I (θ) = - E [\frac{\partial ^{2} l o g L}{\partial θ ^{2}}]$
12	充分统计量	Sufficient Statistic	$p (x ∥ T (x), θ) = p (x ∥ T (x))$

一、统计学派别之争：频率学派 vs 贝叶斯学派

1.1 哲学基础的分歧

统计学历史上最深刻的争论发生在频率学派（Frequentist）与贝叶斯学派（Bayesian）之间，这一争论的本质是对”概率”本质的不同理解。

频率学派将概率解释为长期频率。在这个框架下，未知参数 $θ$ 是固定的常数，“概率”只能应用于可重复随机实验的长期频率。置信区间的解释是：若重复抽样100次，约95次包含真实参数值。代表性人物包括Fisher、Neyman和Pearson。

贝叶斯学派将概率解释为主观信念度。参数 $θ$ 被视为随机变量，可以用概率分布描述。在观测数据前，参数服从先验分布 $p (θ)$ ；观测数据后，根据贝叶斯定理更新为后验分布 $p (θ ∣ X)$ 。

Jeffreys (1939) 的经典表述

“Every increase in knowledge may be supposed to decrease the entropy, that is to say, the disorder of our probability distribution.”

1.2 两种方法的形式化对比

频率学派方法：

目标：估计未知参数 $θ$ 的点值或构造置信区间
工具：样本均值 $\overset{ˉ}{X}$ 、样本方差 $S^{2}$ 、枢轴量
评估标准：无偏性 $E [\hat{θ}] = θ$ 、有效性（方差最小）、一致性

贝叶斯方法：

目标：获得参数的后验分布 $p (θ ∣ X)$
工具：贝叶斯定理、先验分布、后验预测分布
评估标准：可信区间（直接给出参数落在某区间的概率）

方面	频率学派	贝叶斯学派
参数性质	固定未知常数	随机变量
概率解释	长期频率	主观信念
先验信息	通常忽略	显式编码
置信区间	覆盖概率	直接概率解释
计算复杂度	通常较低	通常较高

1.3 实用主义视角

现代统计实践中，两种方法各有优劣：

频率学派优势：计算简单，不需要先验选择，客观性较强
贝叶斯优势：自然融合先验信息，不确定性量化完整，可处理复杂层次模型

经验贝叶斯（Empirical Bayes）在两者之间架起桥梁：用数据来估计先验超参数，既保留了贝叶斯框架的灵活性，又减少了主观性。

二、点估计与区间估计

2.1 点估计的基本概念

点估计是用一个具体数值 $\hat{θ}$ 来估计未知参数 $θ$ 的方法。

评价标准：

无偏性： $E [\hat{θ}] = θ$
- 样本均值 $\overset{ˉ}{X}$ 是总体均值 $μ$ 的无偏估计
- 样本方差 $S^{2} = \frac{1}{n - 1} \sum (X_{i} - \overset{ˉ}{X})^{2}$ 是 $σ^{2}$ 的无偏估计（注意除以 $n - 1$ 而非 $n$ ）
有效性：在所有无偏估计中，方差最小者为有效估计
- Cramér-Rao下界给出了无偏估计方差的下限
一致性：当样本量 $n \to \infty$ 时， $\hat{θ}_{n} P θ$
- 一致性保证了估计随数据增加而趋近真实值
均方误差（MSE）： $MSE (\hat{θ}) = E [(\hat{θ} - θ)^{2}] = Var (\hat{θ}) + Bias^{2} (\hat{θ})$
- MSE统一衡量了估计的偏差和方差

2.2 矩估计法

矩估计法（Method of Moments, MoM）通过样本矩匹配总体矩来估计参数。

设总体有 $k$ 个未知参数 $θ_{1}, \dots, θ_{k}$ ，令前 $k$ 阶样本矩等于对应总体矩：

$⎩ ⎨ ⎧ \overset{ˉ}{X} = E [X] \frac{1}{n} \sum X_{i}^{2} = E [X^{2}] ⋮ \frac{1}{n} \sum X_{i}^{k} = E [X^{k}]$

解此方程组即得参数估计。矩估计法简单直观，但通常不如MLE高效。

2.3 区间估计

区间估计给出参数的一个区间范围，同时声明对该区间可靠程度的信心。

置信区间的频率学派定义： $P (θ \in [L (X), U (X)]) = 1 - α$

其中 $[L, U]$ 是置信区间， $1 - α$ 是置信水平（如95%）。

置信区间的常见误解

“95%置信区间”并不意味着”参数有95%的概率落在这个区间内”。正确的解释是：如果重复抽样100次构造置信区间，约95个区间会包含真实参数值。参数的取值是固定的，区间才是随机的。

枢轴量法构造置信区间：

选择一个统计量 $T (X, θ)$ ，其分布不依赖 $θ$
求 $P (a \leq T (X, θ) \leq b) = 1 - α$ 中的 $a, b$
解不等式得到 $θ$ 的区间 $[L, U]$

三、假设检验与p值

3.1 假设检验框架

假设检验是决定是否拒绝原假设 $H_{0}$ 的统计方法。

原假设 $H_{0}$ ：通常表示”无效应”或”现状”
备择假设 $H_{1}$ ：研究者希望证明的命题
检验统计量 $T (X)$ ：汇总数据的函数
拒绝域：使 $H_{0}$ 被拒绝的 $T$ 值区域

两类错误：

错误类型	定义	记作
第一类错误	$H_{0}$ 为真但被拒绝	$\alpha = P(\text{reject } H_0
第二类错误	$H_{0}$ 为假但未拒绝	$\beta = P(\text{fail to reject } H_0

势函数： $π (θ) = P_{θ} (reject H_{0})$ ，描述检验在不同参数值下的拒绝概率。

3.2 p值的精确定义

p值是在原假设成立的前提下，观察到比实际数据更极端结果的概率：

$p-value = P_{H_{0}} (T (X) \geq T (x_{o b s}))$

p值的解读：

小p值（如 $p < 0.05$ ）：在 $H_{0}$ 成立时，观测数据是”小概率事件”，倾向于拒绝 $H_{0}$
大p值：数据与 $H_{0}$ 相符，无法拒绝 $H_{0}$

p值的常见误用

p值不等于” $H_{0}$ 为真的概率”（那是后验概率）

p值不能衡量效应大小或实际重要性

p值具有”可复制性危机”：即使实验设计完美， $p < 0.05$ 的结果中也约有32%是虚假的（假设检验的先验概率为50%）

3.3 似然比检验

似然比检验（Likelihood Ratio Test, LRT）是构造检验的通用方法：

$Λ (x) = \frac{s u p _{θ \in Θ_{0}} L ( θ )}{s u p _{θ \in Θ} L ( θ )}$

Wilks定理表明，在一定正则条件下，当 $H_{0}$ 成立且样本量足够大时：

$- 2 lo g Λ (X) d χ_{df}^{2}$

其中 $df$ 是约束参数的个数。

四、最大似然估计（MLE）

4.1 MLE的定义与性质

最大似然估计是统计学中最重要的估计方法之一。设观测数据 $X = (x_{1}, \dots, x_{n})$ 来自密度 $p (x ∣ θ)$ ，似然函数定义为：

$L (θ ∣ X) = \prod_{i = 1}^{n} p (x_{i} ∣ θ)$

对数似然为便于计算：

$ℓ (θ ∣ X) = lo g L (θ ∣ X) = \sum_{i = 1}^{n} lo g p (x_{i} ∣ θ)$

MLE定义为： $\hat{θ}_{M L E} = ar g max_{θ \in Θ} L (θ ∣ X) = ar g max_{θ \in Θ} ℓ (θ ∣ X)$

MLE的优良性质：

一致性： $\hat{θ}_{M L E} P θ$ 当 $n \to \infty$
渐近正态性： $n (\hat{θ}_{M L E} - θ) d N (0, I (θ)^{- 1})$
- 其中 $I (θ) = - E [\frac{\partial ^{2} l o g p ( X ∣ θ )}{\partial θ ^{2}}]$ 是费舍尔信息
渐近有效性：在正则条件下，MLE达到Cramér-Rao下界
不变性：若 $\hat{θ}$ 是 $θ$ 的MLE，则 $g (\hat{θ})$ 是 $g (θ)$ 的MLE

4.2 MLE的计算方法

解析求解：对数似然求导令其为零 $\frac{\partial ℓ ( θ )}{\partial θ} = 0$

数值优化：对于复杂模型，使用：

牛顿-拉夫森法（Newton-Raphson）
Fisher得分法（Fisher Scoring）
EM算法（见下节）
梯度下降法

正态分布参数的MLE

设 $X_{i} \sim N (μ, σ^{2})$ ，则：

$\overset{μ}{^}_{M L E} = \overset{ˉ}{X}$ （样本均值）

$\overset{σ}{^}_{M L E}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ （注意除以 $n$ 而非 $n - 1$ ，是有偏的）

虽然 $\overset{σ}{^}_{M L E}^{2}$ 有偏，但它仍是 $σ^{2}$ 的MLE。修正偏差后得到无偏估计 $S^{2}$ 。

五、EM算法详解

5.1 隐变量的引入

EM算法（Expectation-Maximization）专门用于处理隐变量（latent variable）模型。当数据中存在不可观测的隐变量 $Z$ 时，直接最大化似然函数往往困难重重。

观测数据的似然： $L (θ ∣ X) = \int L (θ ∣ X, Z) p (Z ∣ X, θ^{(t)}) d Z$

直接计算这个积分通常不可行。

5.2 EM的两步迭代

E步（Expectation）：计算隐变量后验分布下的期望对数似然 $Q (θ ∣ θ^{(t)}) = E_{Z ∣ X, θ^{(t)}} [lo g p (X, Z ∣ θ)]$

M步（Maximization）：最大化 $Q$ 函数得到新参数 $θ^{(t + 1)} = ar g max_{θ} Q (θ ∣ θ^{(t)})$

EM算法的关键洞察：直接优化 $p (X ∣ θ)$ 困难，但优化完整数据似然 $p (X, Z ∣ θ)$ 加上隐变量的期望往往容易。

5.3 EM的收敛性

EM算法单调收敛到局部最优解（不是全局最优）。每次迭代保证： $L (θ^{(t + 1)} ∣ X) \geq L (θ^{(t)} ∣ X)$

EM的几何直观

可以将EM视为在似然曲面上交替进行”上升”（E步找到更好的下界）和”最大化”（M步移动到下界的峰值）。这就是为什么EM属于坐标上升方法。

5.4 EM的变体

变体	改进
GEM（广义EM）	M步只需增加 $Q$ 函数值，不必全局最大化
ECM（期望条件最大化）	在约束条件下交替最大化各参数
ECME（ECM扩展）	使用更快的似然值更新
ECMM（期望条件最大化替代）	使用不同的充分统计量更新
PX-EM（参数扩展EM）	引入扩展参数空间加速收敛

硬币实验的EM算法

假设有两枚硬币A和B，正面概率不同。观测数据是混合的抛掷结果（不知道每次用哪枚硬币）。EM算法通过迭代：E步估计每次抛掷使用各硬币的概率，M步用这些概率更新硬币的正面概率。

六、贝叶斯统计基础

6.1 先验分布的选择

无信息先验（Non-informative Prior）：

拉普拉斯先验：均匀分布 $p (θ) \propto 1$
Jeffreys先验： $p (θ) \propto I (θ)$ （费舍尔信息的平方根）
Reference Prior：在特定条件下使得后验分布最大程度反映数据信息

共轭先验：后验分布与先验分布属于同一分布族，便于计算（详见概率论深度指南）。

层次先验：先验本身带有超参数， $p (θ ∣ α)$ ，超参数 $α$ 又有自己的先验 $p (α)$ ，形成层次结构。

6.2 后验推断

点估计：

后验均值： $\hat{θ}_{m e an} = E [θ ∣ X]$
后验中位数： $\hat{θ}_{m e d ian}$ 满足 $\int_{- \infty}^{\hat{θ}_{m e d ian}} p (θ ∣ X) d θ = 0.5$
后验众数（MAP估计）： $\hat{θ}_{M A P} = ar g max_{θ} p (θ ∣ X)$

后验可信区间（Credible Interval）： $P (θ \in [a, b] ∣ X) = \int_{a}^{b} p (θ ∣ X) d θ = 1 - α$

贝叶斯可信区间的解释比频率学派置信区间更直观：参数落在该区间的后验概率为 $1 - α$ 。

6.3 贝叶斯因子

贝叶斯因子（Bayes Factor）用于比较两个假设：

$B_{10} = \frac{P ( X ∣ H _{1} )}{P ( X ∣ H _{0} )} = \frac{\int P ( H _{1} ∣ θ ) p ( θ ) d θ}{\int P ( H _{0} ∣ θ ) p ( θ ) d θ}$

贝叶斯因子的解读：

$B_{10}$	证据强度
1-3	微弱
3-10	中等
10-30	强
30-100	很强
> 100	决定性

BIC与贝叶斯因子的联系

当先验为适当先验时， $2 lo g B_{10} \approx BIC_{0} - BIC_{1}$ ，即贝叶斯因子近似于两个模型的BIC差。这为模型选择提供了实用方法。

七、非参数统计与稳健统计

7.1 非参数估计方法

非参数统计不假设数据来自特定的参数化分布，提供了更灵活的推断工具。

核密度估计（Kernel Density Estimation, KDE）：

给定样本 $x_{1}, \dots, x_{n}$ ，密度函数 $f$ 的核估计为： $\hat{f}_{h} (x) = \frac{1}{nh} \sum_{i = 1}^{n} K (\frac{x - x _{i}}{h})$

其中 $K$ 是核函数（满足 $\int K (u) d u = 1$ ）， $h$ 是带宽参数。

常用核函数：

高斯核： $K (u) = \frac{1}{2 π} e^{- u^{2} /2}$
Epanechnikov核： $K (u) = \frac{3}{4} (1 - u^{2})$ 当 $∣ u ∣ \leq 1$
均匀核： $K (u) = \frac{1}{2}$ 当 $∣ u ∣ \leq 1$

带宽选择：

拇指法（Rule of Thumb）： $h = 1.06 \overset{σ}{^} n^{- 1/5}$
交叉验证：选择使积分均方误差最小的 $h$
Silverman法： $h = 0.9 min (\overset{σ}{^}, I QR /1.34) n^{- 1/5}$

偏差-方差权衡

带宽 $h$ 控制平滑程度：

$h$ 小：偏差小，方差大（过拟合噪声）

$h$ 大：偏差大，方差小（欠拟合）存在最优带宽使均方误差最小。

7.2 非参数假设检验

Wilcoxon符号秩检验（非参数配对检验）：

原假设：总体中位数为 $m_{0}$ 。

步骤：

计算差值 $d_{i} = x_{i} - m_{0}$
取绝对值 $∣ d_{i} ∣$ 并排序
给正差值分配秩次（忽略零差值）
检验统计量 $W^{+}$ 是正差值秩次之和

Mann-Whitney U检验（Wilcoxon秩和检验，非参数两组独立样本检验）：

检验两组样本是否来自同一分布。

统计量： $U = n_{1} n_{2} + \frac{n _{1} ( n _{1} + 1 )}{2} - R_{1}$

其中 $R_{1}$ 是第一组样本的秩和。

Kruskal-Wallis检验（多组比较）：

非参数的单因素方差分析替代： $H = \frac{12}{N ( N + 1 )} \sum_{j = 1}^{k} \frac{R _{j}^{2}}{n _{j}} - 3 (N + 1)$

其中 $R_{j}$ 是第 $j$ 组的秩和， $N$ 是总样本量。

7.3 Bootstrap方法

Bootstrap通过重采样来估计统计量的分布。

经验Bootstrap：

从原始样本 $x = (x_{1}, \dots, x_{n})$ 有放回地抽取 $n$ 个样本
计算目标统计量 $T^{*}$
重复 $B$ 次（如 $B = 1000$ ）
用 $T_{1}^{*}, \dots, T_{B}^{*}$ 的分布近似真实分布

Bootstrap置信区间：

百分位Bootstrap区间： $[\hat{θ}_{(α /2)}^{*}, \hat{θ}_{(1 - α /2)}^{*}]$

枢轴量Bootstrap区间（更准确）： $[\hat{θ} - \hat{θ}_{1 - α /2}^{*}, \hat{θ} - \hat{θ}_{α /2}^{*}]$

其中 $\hat{θ}_{α}^{*}$ 是 bootstrap 分布的 $α$ 分位数。

Bootstrap的局限性

不适用于小样本（ $n < 10$ ）

当统计量的分布不稳健时效果差

需要计算资源支持大量重采样

7.4 稳健统计

稳健统计研究数据轻微偏离模型假设时的推断方法。

位置参数的稳健估计：

中位数： $L_{1}$ 范数意义下的最优估计，崩溃点 50%
M估计：最小化 $\sum_{i} ρ (x_{i} - θ)$ ， $ρ$ 是损失函数
Huber估计：混合 $L_{1}$ 和 $L_{2}$ 损失 $ρ (t) = {t^{2} /2 c ∣ t ∣ - c^{2} /2 ∣ t ∣ \leq c ∣ t ∣ > c$

尺度的稳健估计：

MAD（Median Absolute Deviation）： $\overset{σ}{^} = 1.4826 \cdot median ∣ x_{i} - \tilde{x} ∣$

崩溃点高，但效率低于样本方差。

影响函数与崩溃点：

影响函数： $IF (x, T, F) = lim_{ϵ \to 0} \frac{T (( 1 - ϵ ) F + ϵ δ _{x} ) - T ( F )}{ϵ}$
崩溃点：使估计量偏离真实值的最小污染比例

八、贝叶斯统计深入

8.1 层次贝叶斯模型

层次模型通过多层先验结构来建模参数的参数（超参数）。

三层模型结构： $X ∣ θ \sim p (X ∣ θ)$ $θ ∣ ϕ \sim p (θ ∣ ϕ)$ $ϕ \sim p (ϕ)$

数据层：给定参数 $θ$ ，观测 $X$ 先验层：给定超参数 $ϕ$ ， $θ$ 的先验超先验层： $ϕ$ 的先验

八个学校示例（Rubin, 1981）

八个学校SAT培训效果的估计。每个学校 $j$ 有观测效果 $\hat{θ}_{j} \sim N (θ_{j}, σ_{j}^{2})$ ，而 $θ_{j} \sim N (μ, τ^{2})$ 。

$θ_{j}$ ：第 $j$ 个学校的真实效果（层次参数）

$μ$ ：总体平均效果（超参数）

$τ$ ：学校间差异程度（超参数）这个模型自然地平衡了学校特定估计与总体估计。

8.2 共轭先验的深入讨论

共轭先验使得后验分布与先验同族，便于计算。

Beta分布： $p (θ) = \frac{1}{B ( α , β )} θ^{α - 1} (1 - θ)^{β - 1}$

Bernoulli-Beta共轭： $X_{i} ∣ θ \sim Bernoulli (θ)$ $θ \sim Beta (α, β)$ $θ ∣ x_{1}, \dots, x_{n} \sim Beta (α + \sum x_{i}, β + n - \sum x_{i})$

Dirichlet-Multinomial共轭： $(X_{1}, \dots, X_{K}) ∣ α \sim Multinomial (n, θ)$ $θ \sim Dirichlet (α_{1}, \dots, α_{K})$ $θ ∣ data \sim Dirichlet (α_{1} + n_{1}, \dots, α_{K} + n_{K})$

Normal-Normal共轭（方差已知）： $\overset{ˉ}{X} ∣ μ \sim N (μ, σ^{2} / n)$ $μ \sim N (μ_{0}, σ_{0}^{2})$ $μ ∣ data \sim N (μ_{n}, σ_{n}^{2})$

其中： $σ_{n}^{2} = (\frac{1}{σ _{0}^{2}} + \frac{n}{σ ^{2}})^{- 1}$ $μ_{n} = σ_{n}^{2} (\frac{μ _{0}}{σ _{0}^{2}} + \frac{n x ˉ}{σ ^{2}})$

8.3 马尔可夫链蒙特卡洛方法

MCMC方法通过构造马尔可夫链来生成后验样本。

Metropolis-Hastings算法：

选择提议分布 $q (θ^{'} ∣ θ^{(t)})$
计算接受概率： $α = min (1, \frac{p ( θ ^{'} ) q ( θ ^{(t)} ∣ θ ^{'} )}{p ( θ ^{(t)} ) q ( θ ^{'} ∣ θ ^{(t)} )})$
以概率 $α$ 接受 $θ^{'}$ ，否则保留 $θ^{(t)}$

当 $q$ 对称时（如正态提议），简化为标准Metropolis算法。

Gibbs采样：

是 Metropolis-Hastings 的特例，提议分布为条件分布： $q (θ_{j}^{'} ∣ θ_{- j}^{(t)}) = p (θ_{j}^{'} ∣ θ_{- j}^{(t)}, X)$

收敛诊断：

Geweke检验：比较链前后部分的均值
Gelman-Rubin统计量： $\hat{R}$ ，比较多链方差
有效样本量（ESS）

8.4 变分推断高级专题

变分推断将贝叶斯推断转化为优化问题。

平均场变分族： $q (Z) = \prod_{j = 1}^{m} q_{j} (Z_{j})$

最优的 $q_{j}$ 满足： $lo g q_{j}^{*} (Z_{j}) = E_{- j} [lo g p (X, Z)] + const$

变分EM（Variational EM）：

当模型有潜在变量 $Z$ 和参数 $θ$ 时，交替优化：

E步：用变分分布近似 $P (Z ∣ X, θ^{(t)})$
M步：最大化 $E_{q} [lo g p (X, Z ∣ θ)]$

黑盒变分推断（BBVI）：

使用随机梯度下降优化ELBO： $\nabla_{ϕ} L \approx \frac{1}{S} \sum_{s = 1}^{S} \nabla_{ϕ} lo g q (z_{s} ∣ ϕ) (lo g p (X, z_{s}) - lo g q (z_{s} ∣ ϕ))$

使用重参数化技巧来降低梯度方差。

九、统计学习理论基础

9.1 PAC学习框架

PAC（Probably Approximately Correct）学习是分类学习的理论框架。

PAC可学习：若存在学习算法 $A$ 和多项式 $m (\cdot, \cdot, \cdot)$ 使得对任意 $d, ϵ, δ$ 和分布 $D$ ，当样本量 $m \geq m (ϵ, δ, d)$ 时： $P_{S \sim D^{m}} (R (h_{S}) > ϵ) < δ$

其中 $R (h) = P_{(x, y) \sim D} (h (x) \neq = y)$ 是真实风险。

样本复杂度： $m (ϵ, δ) = \frac{1}{2 ϵ ^{2}} (lo g ∣ H ∣ + lo g \frac{1}{δ})$

对于有限假设空间。

9.2 VC维度

VC维度（Vapnik-Chervonenkis Dimension）衡量假设空间的表达能力。

定义： $H$ 的VC维是能被 $H$ 打散的最大有限点集的大小。

打散：若对点集的任意二值标记， $H$ 都存在假设完美分类。

** Sauer引理**：若VCdim( $H$ ) = $d$ ，则： $∣ H \cap X^{m} ∣ \leq \sum_{i = 0}^{d} (i m)$

VC维与样本复杂度： $m (ϵ, δ) = \frac{8}{ϵ ^{2}} (lo g \frac{4}{δ} + lo g ∣ H ∣) \approx \frac{8 d}{ϵ ^{2}} lo g \frac{1}{ϵ}$

深度神经网络的VC维

对于具有 $W$ 个参数的网络，VC维上界为 $O (W lo g W)$ 。这说明网络容量（参数数量）控制表达能力。

9.3 Rademacher复杂度

Rademacher复杂度提供了更精细的学习边界。

定义： $R_{m} (H) = E_{S, σ} [sup_{h \in H} \frac{1}{m} \sum_{i = 1}^{m} σ_{i} h (x_{i})]$

其中 $σ_{i} \sim Rademacher (\pm 1)$ 是随机符号。

泛化边界： $R (h_{S}) \leq \hat{R} (h_{S}) + 2 R_{m} (H) + \frac{l o g ( 1/ δ )}{2 m}$

Rademacher复杂度随样本量增长更快地收敛，因此边界比VC维更紧。

经验Rademacher复杂度： $\hat{R}_{S} (H) = E_{σ} [sup_{h \in H} \frac{1}{m} \sum_{i = 1}^{m} σ_{i} h (x_{i})]$

用样本代替期望。

9.4 偏差-方差分解

偏差-方差分解是理解模型复杂度的核心工具。

对于回归问题 $Y = f (X) + ϵ$ ，预测误差分解为： $E [(Y - \hat{f} (X))^{2}] = Var (f (X)) + Bias^{2} (\hat{f}) + Var (ϵ)$

偏差：模型假设与真实函数的差距（欠拟合）
方差：模型对训练数据的敏感度（过拟合）
** irreducible error**：数据固有噪声

多项式回归

一次多项式：偏差高，方差低（欠拟合）

高次多项式：偏差低，方差高（过拟合）

最优复杂度在两者之间取得平衡

正则化与偏差-方差权衡：

岭回归： $\hat{β} = (X^{T} X + λ I)^{- 1} X^{T} y$

当 $λ > 0$ 时：

增加偏差（收缩效应）
减少方差（正则化效应）

十、因果推断基础

10.1 因果推断的基本框架

因果推断研究从观测数据推断因果关系的方法论。

潜在结果框架（Rubin因果模型）：

每个个体 $i$ 有两个潜在结果：

$Y_{i} (1)$ ：接受处理的结果
$Y_{i} (0)$ ：未接受处理的结果

个体处理效应（ITE）： $τ_{i} = Y_{i} (1) - Y_{i} (0)$

问题是：每个个体只能观测到一个潜在结果！

平均处理效应（ATE）： $ATE = E [Y (1) - Y (0)] = E [Y (1)] - E [Y (0)]$

10.2 随机实验与混淆变量

随机化实验是因果推断的金标准：

随机分配处理 vs 对照
处理分配与潜在结果独立
$ATE = E [Y ∣ T = 1] - E [Y ∣ T = 0]$

混淆变量（Confounder）：同时影响处理分配和结果变量。

控制混淆的方法：

分层：按混淆变量分层后比较
匹配：匹配处理组和对照组的混淆变量
协变量调整：回归中控制混淆变量
工具变量：利用外生变异性

10.3 倾向得分方法

倾向得分（Propensity Score）： $e (x) = P (T = 1∣ X = x)$

倾向得分匹配： $\overset{τ}{^}_{PSM} = E [Y (1) - Y (0)] \approx \frac{1}{n _{1}} \sum_{i : T_{i} = 1} (Y_{i} - Y_{j (i)})$

其中 $j (i)$ 是与 $i$ 倾向得分最接近的对照个体。

逆概率加权（IPW）： $\overset{τ}{^}_{I P W} = \frac{1}{n} \sum_{i = 1}^{n} \frac{T _{i} Y _{i}}{e ^ ( x _{i} )} - \frac{1}{n} \sum_{i = 1}^{n} \frac{( 1 - T _{i} ) Y _{i}}{1 - e ^ ( x _{i} )}$

10.4 因果图模型

有向无环图（DAG）表示因果结构。

d-分离（有向分离）：判断两个变量在给定第三组变量时是否条件独立。

后门路径：连接处理和结果的非因果路径。

后门准则：若存在变量集 $Z$ 阻断所有从 $X$ 到 $Y$ 的后门路径，则： $P (Y ∣ d o (X = x), Z) = P (Y ∣ X = x, Z)$

这允许从观测数据估计 $d o$ 操作的效果。

Pearl的因果阶梯

关联（Association）： $P (Y ∣ X)$ - 看到 $X$ 改变 $Y$ 的概率

干预（Intervention）： $P (Y ∣ d o (X), Z)$ - 强制设置 $X$ 的效果

反事实（Counterfactual）： $P (Y_{x} ∣ X = x^{'}, Y = y^{'})$ - 若 $X$ 不同会发生什么

十一、实验设计与分析

11.1 随机化完全区组设计

完全随机化设计（CRD）：

处理随机分配到实验单元
适用于均匀实验环境

随机区组设计（RCBD）：

将实验单元分成区组（块）
区组内条件尽可能均匀
处理在每个区组内随机分配

拉丁方设计：

两个区组因素（如行和列）
每个处理在每行每列恰好出现一次
提高效率

11.2 因子实验

因子实验同时研究多个因素的效应。

主效应：单个因素的效应（忽略其他因素）。

交互效应：一个因素的水平效应依赖于另一个因素的水平。

2^k析因设计：

$k$ 个因素，每个因素 2 个水平（高/低）：

$2^{2}$ 设计：4 个处理组合
$2^{3}$ 设计：8 个处理组合
适合筛选实验

部分析因设计：

当因素较多时，使用部分因子设计减少实验次数。

$2^{k - p}$ 设计： $k$ 个因素， $p$ 个因素被折叠

11.3 方差分析深入

单因素方差分析： $Y_{ij} = μ + τ_{i} + ϵ_{ij}$

其中 $τ_{i}$ 是处理效应， $ϵ_{ij} \sim N (0, σ^{2})$ 。

平方和分解： $SST = SSB + SSW$

SST：总平方和
SSB：组间平方和（处理效应）
SSW：组内平方和（误差）

F检验： $F = \frac{MSB}{MSW} \sim F_{k - 1, N - k}$

11.4 响应曲面方法

响应曲面方法（RSM）优化过程参数。

Box-Behnken设计：

三水平设计
不包含角点组合
适合约束区域

中心复合设计（CCD）：

因子水平： $- α, - 1, 0, 1, α$
包含轴向点
可拟合二次模型

梯度下降： $\nabla f = (\frac{\partial f}{\partial x _{1}}, \dots, \frac{\partial f}{\partial x _{k}})$

沿负梯度方向迭代寻找最优。

十二、时间序列分析

12.1 ARMA模型

自回归移动平均模型（ARMA）是时间序列分析的基础。

AR(p)模型： $X_{t} = ϕ_{1} X_{t - 1} + ϕ_{2} X_{t - 2} + \dots + ϕ_{p} X_{t - p} + ϵ_{t}$

其中 $ϵ_{t} \sim W N (0, σ^{2})$ （白噪声）。

MA(q)模型： $X_{t} = ϵ_{t} + θ_{1} ϵ_{t - 1} + \dots + θ_{q} ϵ_{t - q}$

ARMA(p,q)模型： $X_{t} = ϕ_{1} X_{t - 1} + \dots + ϕ_{p} X_{t - p} + ϵ_{t} + θ_{1} ϵ_{t - 1} + \dots + θ_{q} ϵ_{t - q}$

平稳性条件：AR特征多项式根在单位圆外。

可逆性条件：MA特征多项式根在单位圆外。

12.2 季节性模型

SARIMA模型（季节性ARIMA）：

$SARIMA (p, d, q) \times (P, D, Q)_{s}$

$Φ_{P} (B^{s}) ϕ_{p} (B) (1 - B)^{d} (1 - B^{s})^{D} X_{t} = Θ_{Q} (B^{s}) θ_{q} (B) ϵ_{t}$

其中 $s$ 是季节周期（如 12 表示月度数据的年度季节性）。

傅里叶项方法： $X_{t} = \sum_{k = 1}^{K} [α_{k} cos (2 πk t / s) + β_{k} sin (2 πk t / s)] + ARMA (p, q)$

12.3 状态空间模型与卡尔曼滤波

状态空间模型：

观测方程： $Y_{t} = H_{t} θ_{t} + v_{t}$ 状态方程： $θ_{t} = F_{t} θ_{t - 1} + w_{t}$

卡尔曼滤波：

递归估计最优状态： $\hat{θ}_{t ∣ t - 1} = F_{t} \hat{θ}_{t - 1∣ t - 1}$ $P_{t ∣ t - 1} = F_{t} P_{t - 1∣ t - 1} F_{t}^{T} + Q_{t}$ $K_{t} = P_{t ∣ t - 1} H_{t}^{T} (H_{t} P_{t ∣ t - 1} H_{t}^{T} + R_{t})^{- 1}$ $\hat{θ}_{t ∣ t} = \hat{θ}_{t ∣ t - 1} + K_{t} (Y_{t} - H_{t} \hat{θ}_{t ∣ t - 1})$ $P_{t ∣ t} = (I - K_{t} H_{t}) P_{t ∣ t - 1}$

12.4 谱分析与频率域方法

谱密度函数： $γ (h) = Cov (X_{t}, X_{t + h})$ $f (ω) = \sum_{h = - \infty}^{\infty} γ (h) e^{- iωh}$

周期图（谱密度估计）： $I (ω) = \frac{1}{2 πn} \sum_{t = 1}^{n} X_{t} e^{- iω t}^{2}$

平滑周期图：使用谱窗平滑周期图得到一致估计。

交叉谱分析两个时间序列的频率关系。

十三、多元统计方法

13.1 判别分析

线性判别分析（LDA）：

设 $Y \in {1, 2}$ 是类别， $X \in R^{p}$ 是特征。

贝叶斯判别规则： $P (Y = 1∣ X) \propto π_{1} f_{1} (X), P (Y = 2∣ X) \propto π_{2} f_{2} (X)$

若 $f_{k} (X) = N (μ_{k}, Σ)$ ，则： $δ_{k} (X) = X^{T} Σ^{- 1} μ_{k} - \frac{1}{2} μ_{k}^{T} Σ^{- 1} μ_{k} + lo g π_{k}$

决策边界是 $X$ 的线性函数。

二次判别分析（QDA）：

若各类协方差矩阵不同 $Σ_{k}$ ，则决策边界是二次的。

13.2 典型相关分析

典型相关分析（CCA）研究两组变量之间的相关性。

设 $X \in R^{p}$ ， $Y \in R^{q}$ ，寻找线性组合： $U = a^{T} X, V = b^{T} Y$

最大化 $Corr (U, V)$ 。

典型相关系数 $ρ_{1} \geq ρ_{2} \geq \dots \geq ρ_{m i n (p, q)}$ 。

典型变量是原始变量的最优压缩，同时保留两组间的相关性。

13.3 多维标度分析

度量MDS：

给定距离矩阵 $D = (d_{ij})$ ，寻找嵌入点 $z_{1}, \dots, z_{n} \in R^{k}$ 使得： $∥ z_{i} - z_{j} ∥ \approx d_{ij}$

Stress函数： $Stress (Z) = \frac{\sum _{i < j} ( d _{ij} - ∥ z _{i} - z _{j} ∥ ) ^{2}}{\sum _{i < j} d _{ij}^{2}}$

非度量MDS（Kruskal-Shephard）：

仅保留距离的单调性： $\hat{d}_{ij} = f (d_{ij})$

其中 $f$ 是单调函数。

13.4 对应分析

对应分析（Correspondence Analysis）：

分析行×列表的关联性。

将列联表归一化后进行奇异值分解： $X = U Σ V^{T}$

可视化行和列点在同一低维空间中。

十四、生存分析

14.1 生存函数与风险函数

生存函数： $S (t) = P (T > t)$

非参数估计（Kaplan-Meier）： $\hat{S} (t) = \prod_{t_{i} \leq t} \frac{n _{i} - d _{i}}{n _{i}}$

其中 $n_{i}$ 是时刻 $t_{i}$ 前的风险集大小， $d_{i}$ 是死亡数。

风险函数： $h (t) = lim_{Δ t \to 0} \frac{P ( t \leq T < t + Δ t ∣ T \geq t )}{Δ t} = \frac{f ( t )}{S ( t )}$

14.2 Cox比例风险模型

Cox模型： $h (t ∣ X) = h_{0} (t) exp (β^{T} X)$

其中 $h_{0} (t)$ 是基准风险函数， $β$ 是回归系数。

部分似然（不依赖基准风险）： $L (β) = \prod_{i : δ_{i} = 1} \frac{e x p ( β ^{T} X _{i} )}{\sum _{j \in R (t_{i})} e x p ( β ^{T} X _{j} )}$

PH假设检验： $lo g (- lo g S (t))$ 应平行。

14.3 加速失效模型

加速失效模型（AFT）： $lo g T = β^{T} X + ϵ$

相当于对数线性模型。

常见的误差分布：

指数分布 $\Rightarrow$ 指数回归
Weibull分布 $\Rightarrow$ Weibull回归
对数正态分布 $\Rightarrow$ 对数正态回归

14.4 竞争风险

竞争风险：多个事件类型，任何一个发生阻止其他事件发生。

累积发生函数（CIF）： $\hat{F}_{k} (t) = \sum_{t_{i} \leq t} \hat{P} (T = t_{i}, K = k)$

Fine-Gray模型： $h_{k} (t) = h_{0 k} (t) exp (β_{k}^{T} X)$

建模子分布风险（特定原因风险）。

十五、统计决策理论

15.1 统计决策框架

统计决策理论将统计推断形式化为决策问题。

决策问题的三个要素：

状态空间 $Θ$ ：可能的参数值
行动空间 $A$ ：可采取的行动
损失函数 $L (θ, a)$ ：采取行动 $a$ 而真实参数为 $θ$ 时的损失

风险函数： $R (θ, δ) = E_{θ} [L (θ, δ (X))]$

贝叶斯风险： $r (π, δ) = E_{π} [R (θ, δ)] = \int R (θ, δ) π (θ) d θ$

15.2 决策准则

极小化极大准则（Minimax）： $δ^{*} = ar g min_{δ} sup_{θ \in Θ} R (θ, δ)$

在所有策略中，选择使最大风险最小的策略。

贝叶斯准则： $δ^{*} = ar g min_{δ} r (π, δ)$

对于给定的先验分布 $π$ ，选择使贝叶斯风险最小的策略。

** admissible 决策函数**：若不存在另一个决策函数 $δ^{'}$ 使得 $R (θ, δ^{'}) \leq R (θ, δ)$ 对所有 $θ$ ，且至少一处严格不等式，则 $δ$ 是 admissible 的。

15.3 最优决策规则

完全类与本质完全类：

完全类：每个决策函数都被某个 Bayes 决策函数支配
本质完全类：存在完全类

指数族分布的容许性：

对于指数族分布，在平方损失下，均值估计是 admissible 的。

Stein现象：

在多元正态均值估计中，当维度 $p \geq 3$ 时，James-Stein估计比MLE更优。

15.4 贝叶斯决策与后验风险

后验风险： $r_{post} (δ ∣ x) = E [L (θ, δ) ∣ X = x]$

贝叶斯决策规则： $δ_{π} (x) = ar g min_{a \in A} r_{post} (a ∣ x)$

共轭先验与贝叶斯决策：

对于平方损失，Bayes估计是后验均值： $δ_{π} (x) = E [θ ∣ X = x]$

对于0-1损失，Bayes估计是后验众数（MAP）。

十六、模型选择理论

16.1 过拟合与欠拟合

训练误差： $\hat{R}_{S} (h) = \frac{1}{n} \sum_{i = 1}^{n} 1_{h (x_{i}) \neq = y_{i}}$

泛化误差： $R (h) = E [1_{h (X) \neq = Y}]$

过拟合：训练误差小，泛化误差大 欠拟合：训练误差和泛化误差都大

16.2 偏差-方差分解（决策理论视角）

对于平方损失 $L (Y, f (X)) = (Y - f (X))^{2}$ ： $R (f) = σ^{2} + Bias^{2} (f) + Var (f)$

方差：模型对训练数据的敏感度
偏差：模型假设与真实函数的差距
** irreducible error**：噪声引起的误差

16.3 结构风险最小化

经验风险最小化（ERM）： $\hat{f} = ar g min_{f \in F} \hat{R}_{S} (f)$

VC维正则化界： $R (f) \leq \hat{R}_{S} (f) + \frac{d ( l o g ( 2 n / d ) + 1 ) - l o g ( δ /4 )}{n}$

其中 $d = VCdim (F)$ 。

结构风险最小化（SRM）：

将假设空间划分为嵌套结构： $F_{1} \subset F_{2} \subset \dots$

在每个子空间中选择使经验风险最小的模型，然后选择最优子空间。

16.4 信息准则

AIC（Akaike Information Criterion）： $AIC = - 2 lo g L (\hat{θ}) + 2 k$

其中 $k$ 是参数个数。

BIC（Bayesian Information Criterion）： $BIC = - 2 lo g L (\hat{θ}) + k lo g n$

选择比较：

AIC：在样本量大时渐近选择真实模型
BIC：在大样本下选择正确维度模型
两者在模型嵌套时选择不同

十七、高维统计推断

17.1 高维问题的挑战

“维度灾难”：当维度 $p$ 接近或超过样本量 $n$ 时，传统统计方法失效。

稀疏性假设：在高维问题中，假设只有少数变量真正相关。

符号：

$p$ ：变量个数
$n$ ：样本量
$s$ ：非零系数的个数（稀疏度）

17.2 稀疏估计方法

Lasso（Least Absolute Shrinkage and Selection Operator）： $\hat{β}^{lasso} = ar g min_{β} ∥ y - Xβ ∥_{2}^{2} + λ ∥ β ∥_{1}$

岭回归： $\hat{β}^{ridge} = ar g min_{β} ∥ y - Xβ ∥_{2}^{2} + λ ∥ β ∥_{2}^{2}$

Elastic Net： $\hat{β}^{enet} = ar g min_{β} ∥ y - Xβ ∥_{2}^{2} + λ_{1} ∥ β ∥_{1} + λ_{2} ∥ β ∥_{2}^{2}$

17.3 Oracle性质

Oracle性质：

在一定条件下（如 irrepresentable 条件），Lasso 可以：

正确识别非零系数的子集（变量选择一致性）
以与知道真实稀疏结构的估计器相同的速率估计非零系数

Irrepresentable条件： $max_{j} (X_{- j}^{T} X_{- j})^{- 1} X_{- j}^{T} X_{j}_{1} < 1$

这是 Lasso 变量选择一致性的必要条件。

17.4 Cross-Validation与调参

K折交叉验证：

将数据划分为 $K$ 个大小相等的折： $\hat{R}_{C V} = \frac{1}{K} \sum_{k = 1}^{K} \hat{R}^{(k)}$

留一交叉验证（LOOCV）： $n \to n, K = n$

稳定选择：多次交叉验证，选择被一致选择的变量。

十八、函数数据分析

18.1 函数数据的表示

函数数据是观测本身是函数形式的数据： $x_{i} (t), t \in T$

基函数展开： $x_{i} (t) = \sum_{k = 1}^{K} c_{ik} ϕ_{k} (t)$

常用基函数：

Fourier基（周期性数据）
B样条基（非周期性数据）
小波基（多尺度分析）

18.2 函数主成分分析

函数主成分是函数空间的PCA扩展。

主成分分数： $ξ_{ik} = \int_{0}^{T} x_{i} (t) ϕ_{k} (t) d t$

重构： $\overset{x}{^}_{i} (t) = \sum_{k = 1}^{K} ξ_{ik} ϕ_{k} (t)$

18.3 函数线性模型

函数响应模型： $y_{i} = \int_{0}^{T} x_{i} (t) β (t) d t + ϵ_{i}$

函数预测模型： $y_{i} (t) = x_{i} (t)^{T} β + ϵ_{i} (t)$

18.4 动态函数数据分析

函数时间序列： $x_{1} (t), x_{2} (t), \dots, x_{T} (t)$

函数AR模型： $x_{t + 1} (t) = \int Φ (s, t) x_{s} (s) d s + ϵ_{t} (t)$

十九、统计计算方法

19.1 梯度下降与随机梯度下降

梯度下降： $θ^{(t + 1)} = θ^{(t)} - η_{t} \nabla L (θ^{(t)})$

随机梯度下降（SGD）： $θ^{(t + 1)} = θ^{(t)} - η_{t} \nabla_{θ} lo g p (x_{i} ∣ θ)$

使用单个样本或小批量估计梯度。

收敛性条件：

学习率衰减： $\sum_{t} η_{t} = \infty$ ， $\sum_{t} η_{t}^{2} < \infty$
步长调度：指数衰减、余弦退火

19.2 坐标下降法

坐标下降：固定其他坐标，依次优化每个坐标： $θ_{j}^{(t + 1)} = ar g min_{θ_{j}} L (θ_{1}^{(t + 1)}, \dots, θ_{j}, \dots, θ_{p}^{(t)})$

Lasso的坐标下降：

对Lasso问题，坐标下降有闭式解： $θ_{j} \leftarrow S (\tilde{θ}_{j}, λ)$

其中 $S$ 是软阈值算子。

19.3 牛顿法与拟牛顿法

牛顿法： $θ^{(t + 1)} = θ^{(t)} - H^{- 1} \nabla L (θ^{(t)})$

其中 $H = \nabla^{2} L$ 是Hessian矩阵。

计算挑战：Hessian矩阵的存储和求逆是 $O (p^{2})$ 和 $O (p^{3})$ 。

拟牛顿法：用近似Hessian $B_{t}$ 替代真实Hessian： $B_{t + 1} = B_{t} + \frac{y _{t} y _{t}^{T}}{y _{t}^{T} s _{t}} - \frac{B _{t} s _{t} s _{t}^{T} B _{t}}{s _{t}^{T} B _{t} s _{t}}$

其中 $y_{t} = \nabla L (θ^{(t + 1)}) - \nabla L (θ^{(t)})$ ， $s_{t} = θ^{(t + 1)} - θ^{(t)}$ 。

19.4 置信域方法

置信域方法：在每一步，在信任域内寻找最优步长： $min_{m} L (θ_{k} + s) s.t. ∥ s ∥ \leq Δ_{k}$

Dogleg方法：结合最速下降和高斯-牛顿方向。

二十、统计学的哲学与方法论

20.1 统计推断的逻辑基础

归纳推理的问题：

统计推断是从样本到总体的归纳推理。这种推理天然是不确定的。

Fisher的显著性检验：

提出无效假设 $H_{0}$
计算检验统计量
评估 $p$ 值

Neyman-Pearson的假设检验：

明确原假设和备择假设
控制第一类和第二类错误
构造最优检验

20.2 统计模型的选择

奥卡姆剃刀：在解释能力相同的情况下，选择更简单的模型。

似然原理：所有关于 $θ$ 的证据都包含在似然函数中。

条件原理：推断应该基于设计的实验条件。

20.3 统计学中的争议

Fisher vs Neyman-Pearson：

Fisher强调显著性检验
Neyman-Pearson强调假设检验的控制

频率主义 vs 贝叶斯主义：

概率的解释
先验分布的选择
渐近行为的意义

20.4 现代统计学的趋势

计算统计：

MCMC方法
Bootstrap方法
机器学习方法

大数据统计学：

高维推断
在线学习
分布式计算

可重复研究：

开放数据
预注册
同行评审

参考文献

Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury Press.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). CRC Press.
McLachlan, G. J., & Krishnan, T. (2008). The EM Algorithm and Extensions (2nd ed.). Wiley.
Wasserman, L. (2010). All of Statistics: A Concise Course in Statistical Inference. Springer.
Vapnik, V. N. (1998). Statistical Learning Theory. Wiley.
Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.
Box, G. E. P., Jenkins, G. M., & Reinsel, G. C. (2015). Time Series Analysis: Forecasting and Control (5th ed.). Wiley.
Friedman, J., Hastie, T., & Tibshirani, R. (2001). The Elements of Statistical Learning (2nd ed.). Springer.
Hernán, M. A., & Robins, J. M. (2020). Causal Inference: What If. CRC Press.
Bickel, P. J., & Doksum, K. A. (2015). Mathematical Statistics: Basic Ideas and Selected Topics (2nd ed.). CRC Press.
Lehmann, E. L., & Romano, J. P. (2005). Testing Statistical Hypotheses (3rd ed.). Springer.
van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge University Press.
Hastie, T., Tibshirani, R., & Wainwright, M. (2015). Statistical Learning with Sparsity. CRC Press.
Efron, B., & Tibshirani, R. J. (1994). An Introduction to the Bootstrap. CRC Press.

人工智能知识库

探索

统计学深度指南

统计学深度指南

关键词

一、统计学派别之争：频率学派 vs 贝叶斯学派

1.1 哲学基础的分歧

1.2 两种方法的形式化对比

1.3 实用主义视角

二、点估计与区间估计

2.1 点估计的基本概念

2.2 矩估计法

2.3 区间估计

三、假设检验与p值

3.1 假设检验框架

3.2 p值的精确定义

3.3 似然比检验

四、最大似然估计（MLE）

4.1 MLE的定义与性质

4.2 MLE的计算方法

五、EM算法详解

5.1 隐变量的引入

5.2 EM的两步迭代

5.3 EM的收敛性

5.4 EM的变体

六、贝叶斯统计基础

6.1 先验分布的选择

6.2 后验推断

6.3 贝叶斯因子

七、非参数统计与稳健统计

7.1 非参数估计方法

7.2 非参数假设检验

7.3 Bootstrap方法

7.4 稳健统计

八、贝叶斯统计深入

8.1 层次贝叶斯模型

8.2 共轭先验的深入讨论

8.3 马尔可夫链蒙特卡洛方法

8.4 变分推断高级专题

九、统计学习理论基础

9.1 PAC学习框架

9.2 VC维度

9.3 Rademacher复杂度

9.4 偏差-方差分解

十、因果推断基础

10.1 因果推断的基本框架

10.2 随机实验与混淆变量

10.3 倾向得分方法

10.4 因果图模型

十一、实验设计与分析

11.1 随机化完全区组设计

11.2 因子实验

11.3 方差分析深入

11.4 响应曲面方法

十二、时间序列分析

12.1 ARMA模型

12.2 季节性模型

12.3 状态空间模型与卡尔曼滤波

12.4 谱分析与频率域方法

十三、多元统计方法

13.1 判别分析

13.2 典型相关分析

13.3 多维标度分析

13.4 对应分析

十四、生存分析

14.1 生存函数与风险函数

14.2 Cox比例风险模型

14.3 加速失效模型

14.4 竞争风险

十五、统计决策理论

15.1 统计决策框架

15.2 决策准则

15.3 最优决策规则

15.4 贝叶斯决策与后验风险

十六、模型选择理论

16.1 过拟合与欠拟合

16.2 偏差-方差分解（决策理论视角）

16.3 结构风险最小化

16.4 信息准则

十七、高维统计推断