信息论深度指南

文档概述

信息论由香农于1948年创立，为量化信息、度量不确定性提供了严格的数学框架。本指南系统介绍熵、交叉熵、KL散度、互信息等核心概念，深入探讨信源编码与信道编码定理、率失真理论、典型序列理论（Large Deviation Theory）、最大熵原理以及信息瓶颈理论的完整推导，并结合机器学习中的变分推断、信息瓶颈、对比学习等前沿应用。附录提供熵的泛函不等式、量子信息论入门、网络信息论展望等高级专题。

关键词

序号	关键词	英文	核心公式
1	信息熵	Shannon Entropy	$H (X) = - \sum_{x} p (x) lo g p (x)$
2	交叉熵	Cross-Entropy	$H (P, Q) = - \sum_{x} p (x) lo g q (x)$
3	KL散度	KL Divergence	$D_{K L} (P ∥ Q) = \sum_{x} p (x) lo g \frac{p ( x )}{q ( x )}$
4	互信息	Mutual Information	$I (X; Y) = H (X) - H (X ∥ Y)$
5	信道容量	Channel Capacity	$C = max_{p (x)} I (X; Y)$
6	信息瓶颈	Information Bottleneck	$min_{p (t ∥ x)} I (X; T) - β I (T; Y)$
7	最大熵	Maximum Entropy	$max H (p) s.t. E [f_{i} (X)] = α_{i}$
8	联合熵	Joint Entropy	$H (X, Y) = - \sum_{x, y} p (x, y) lo g p (x, y)$
9	条件熵	Conditional Entropy	$H (X ∥ Y) = \sum_{y} p (y) H (X ∥ Y = y)$
10	率失真理论	Rate-Distortion Theory	压缩与保真度的权衡
11	Fano不等式	Fano’s Inequality	$H(P_e) + P_e \log(
12	数据处理不等式	DPI	$I (X; Y) \geq I (X; f (Y))$
13	典型序列	Typical Set	$A_{ϵ}^{(n)}$ 集合的体积与熵的关系
14	信源编码	Source Coding	$H (X) \leq E [l (X)] < H (X) + ϵ$
15	信道编码定理	Channel Coding	$R < C ⟹$ 存在码可达 $P_{e} \to 0$
16	费舍尔信息	Fisher Information	$J_{X} (θ) = E [(\frac{\partial}{\partial θ} lo g p (X; θ))^{2}]$
17	多终端信息论	Network Information Theory	多用户信道的容量区域
18	率失真函数	Rate-Distortion Function	$R(D) = \min_{p(\hat{x}
19	香农-麦克斯韦妖	Maxwell’s Demon	信息与熵的深层联系
20	通用编码	Universal Coding	无需已知信源分布的渐近最优编码

一、熵与交叉熵

1.1 香农熵的定义

信息熵（Shannon Entropy）是量化随机变量不确定性的基本量。设离散随机变量 $X$ 的概率分布为 $p (x)$ ，则熵定义为：

$H (X) = - \sum_{x \in X} p (x) lo g p (x) = E_{p} [- lo g p (X)]$

约定 $0 lo g 0 = 0$ （因为 $lim_{p \to 0^{+}} p lo g p = 0$ ）。

对数底数的选择决定熵的单位：

底数为 2：单位为 bits（比特）—— 二进制信息的基本单位
底数为 $e$ ：单位为 nats（奈特）—— 数学上更自然（因为 $lo g_{e} x = ln x$ ，与指数分布自然共轭）
两者关系： $1 nat = lo g_{2} e \approx 1.443 bits$ ， $1 bit = ln 2 \approx 0.693 nats$

熵的直觉理解

熵度量了编码随机变量 $X$ 所需的平均比特数（最优编码）。若 $X$ 有 $n$ 种等可能取值，则 $H (X) = lo g_{2} n$ bits——恰好是识别每个取值需要的二进制位数（因为 $lo g_{2} n$ 位二进制数可以表示 $2^{l o g_{2} n} = n$ 种状态）。

熵也可以理解为”惊喜”的期望程度。若某事件概率极低但发生了，我们”惊讶”；若事件几乎必然发生，“惊讶”很少。香农的 $I (x) = - lo g p (x)$ 恰好度量了这种惊喜程度，而熵是惊喜的期望值。

自信息（Self-Information）：单个事件的信息量 $I (x) = - lo g p (x)$ 。自信息满足：

非负性： $I (x) \geq 0$
单调性： $p (x)$ 越小， $I (x)$ 越大
可加性：独立事件的自信息可加 $I (x, y) = I (x) + I (y)$

二进制熵函数：伯努利分布 $X \sim Bernoulli (p)$ 的熵：

$H_{b} (p) = - p lo g_{2} p - (1 - p) lo g_{2} (1 - p)$

$H_{b} (p)$ 在 $p = 0.5$ 处达到最大值 1 bit，当 $p \to 0$ 或 $p \to 1$ 时趋近于 0。这反映了完全确定的事件不携带信息。

熵的上界：对于在有限字母表 $X$ （ $∣ X ∣ = m$ ）上取值的随机变量， $H (X) \leq lo g_{2} m$ ，等号当且仅当均匀分布时成立。

1.2 熵的基本性质

非负性： $H (X) \geq 0$ ，当且仅当 $X$ 是确定分布时取等号。这是熵最基本的不等式。

链式法则：

$H (X_{1}, X_{2}, \dots, X_{n}) = H (X_{1}) + H (X_{2} ∣ X_{1}) + \dots + H (X_{n} ∣ X_{1}, \dots, X_{n - 1})$

这个等式将联合熵分解为一系列条件熵的和，表明在已知部分信息后，剩余信息的不确定性逐层递减。

次可加性（Subadditivity）： $H (X_{1}, X_{2}) \leq H (X_{1}) + H (X_{2})$ ，等号当 $X_{1} ⊥ X_{2}$ 时成立。

条件减少熵： $H (X ∣ Y) \leq H (X)$ ，即知道 $Y$ 后不会增加 $X$ 的不确定性。等号成立当且仅当 $X ⊥ Y$ 。

联合熵： $(X, Y) \sim p (x, y)$ 的联合分布熵：

$H (X, Y) = - \sum_{x, y} p (x, y) lo g p (x, y)$

条件熵：给定 $Y$ 后 $X$ 的剩余不确定性：

$H (X ∣ Y) = \sum_{y} p (y) H (X ∣ Y = y) = - \sum_{x, y} p (x, y) lo g p (x ∣ y)$

熵的等价表示：互信息的定义 $I (X; Y) = H (X) - H (X ∣ Y)$ 揭示了熵、条件熵和互信息之间的深刻联系。 $I (X; Y) \geq 0$ 意味着 $H (X) \geq H (X ∣ Y)$ ，即条件信息永远不超过无条件信息。

可加性与独立化：

$H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)$

若 $X$ 与 $Y$ 独立，则 $H (X, Y) = H (X) + H (Y)$ 。

二元变量的熵计算

设 $X \in {0, 1}$ ， $P (X = 0) = 0.7$ ， $P (X = 1) = 0.3$ 。 $H (X) = - 0.7 lo g_{2} 0.7 - 0.3 lo g_{2} 0.3 \approx 0.610 + 0.521 = 1.131$ bits。若 $P (X = 0) = P (X = 1) = 0.5$ ，则 $H (X) = 1$ bit。若 $P (X = 0) = 1$ ，则 $H (X) = 0$ bits。

这个例子说明：分布越均匀，熵越大（不确定性越大）；分布越集中，熵越小。

1.3 交叉熵与损失函数

交叉熵（Cross-Entropy）衡量用分布 $q$ 编码来自分布 $p$ 的消息所需的平均比特数：

$H (P, Q) = - \sum_{x} p (x) lo g q (x) = E_{p} [- lo g q (X)]$

交叉熵与熵的关系：

$H (P, Q) = H (P) + D_{K L} (P ∥ Q)$

机器学习中的交叉熵损失：在分类问题中，真实标签 $y$ 的分布为 $p (y ∣ x)$ （one-hot 编码），模型预测为 $q_{θ} (y ∣ x)$ （softmax 输出）。优化交叉熵损失：

$min_{θ} H (p, q_{θ}) = min_{θ} (H (p) + D_{K L} (p ∥ q_{θ}))$

由于 $H (p)$ 与 $θ$ 无关，最小化交叉熵等价于最小化 $D_{K L} (p ∥ q_{θ})$ ，即使得模型分布 $q_{θ}$ 逼近真实分布 $p$ 。

二元交叉熵（Binary Cross-Entropy）： $y \in {0, 1}$ 的二元分类中，

$L = - [y lo g \overset{y}{^} + (1 - y) lo g (1 - \overset{y}{^})]$

这正是伯努利分布的负对数似然（NLL）。

交叉熵 vs. 均方误差

交叉熵在梯度上优于均方误差（MSE）。MSE 的梯度在预测接近 0 或 1 时趋于消失，而交叉熵的梯度与 sigmoid 的导数无关（因为来自似然函数），训练更加稳定。因此在分类问题中交叉熵是首选损失函数。

1.4 微分熵

对于连续随机变量 $X \sim f (x)$ ，微分熵（Differential Entropy）定义为：

$h (X) = - \int_{- \infty}^{\infty} f (x) lo g f (x) d x$

注意：与离散熵不同，微分熵可以是负数！

例子：均匀分布 $U (0, a)$ ， $f (x) = 1/ a$ （ $0 < x < a$ ），则

$h (X) = - \int_{0}^{a} \frac{1}{a} lo g \frac{1}{a} d x = lo g a$

正态分布的微分熵（最大熵分布）：

$h (X) = \frac{1}{2} lo g (2 π e σ^{2}) nats$

在所有方差为 $σ^{2}$ 的连续分布中，正态分布具有最大微分熵。这是最小假设原理（Least Assumptions Principle）在信息论中的体现。

离散熵与微分熵的关系：在离散化意义下，若将连续变量 $X$ 的取值范围划分为长度为 $Δ$ 的小区间，则离散熵 $H_{Δ} \approx h (X) - lo g Δ$ 。当 $Δ \to 0$ 时， $H_{Δ} \to \infty$ （无穷大的常数项）——这解释了为什么离散熵和微分熵不能直接比较。

微分熵的性质：连续变量的熵不满足非负性等离散变量的基本性质，因此使用时要小心。例如，指数分布 $f (x) = λ e^{- λ x}$ （ $x \geq 0$ ）的微分熵为 $lo g (1/ λ) + γ$ （其中 $γ$ 是欧拉-马歇罗尼常数， $γ \approx 0.5772$ ），可以是负数（当 $λ > 1$ 时）。

二、KL散度（相对熵）

2.1 KL散度的定义

KL散度（Kullback-Leibler Divergence，或称相对熵）衡量两个概率分布的”距离”：

$D_{K L} (P ∥ Q) = \sum_{x} p (x) lo g \frac{p ( x )}{q ( x )} = E_{p} [lo g \frac{p ( X )}{q ( X )}]$

定义要求：若 $p (x) > 0$ ，则 $q (x) > 0$ （ $P$ 支撑集是 $Q$ 支撑集的子集）。否则 $D_{K L} (P ∥ Q) = + \infty$ 。

KL散度不是距离

KL散度不对称： $D_{K L} (P ∥ Q) \neq = D_{K L} (Q ∥ P)$ 。因此严格来说不是距离度量（不满足三角不等式和对称性）。但它是非负的，当且仅当 $P = Q$ 时取零。KL 散度是一种 f-散度，是满足某些性质的更广泛散度族中的一员。

两种对称化散度：

Jensen-Shannon 散度（JS Divergence）： $D_{J S} (P ∥ Q) = \frac{1}{2} D_{K L} (P ∥ M) + \frac{1}{2} D_{K L} (Q ∥ M)$ ，其中 $M = \frac{P + Q}{2}$ 。JS 散度是对称的， $[0, lo g 2]$ 有界。
Hellinger 距离： $H^{2} (P, Q) = \frac{1}{2} \sum_{x} (p (x) - q (x))^{2}$ ，是真正的度量（对称、满足三角不等式）。

2.2 KL散度的性质

非负性（KL散度的核心不等式）：

$D_{K L} (P ∥ Q) \geq 0$

证明（离散情形）：由 $lo g t \leq t - 1$ （等号当 $t = 1$ 时成立，对所有 $t > 0$ ）

人工智能知识库

探索

信息论深度指南

信息论深度指南

关键词

一、熵与交叉熵

1.1 香农熵的定义

1.2 熵的基本性质

1.3 交叉熵与损失函数

1.4 微分熵

二、KL散度（相对熵）

2.1 KL散度的定义

2.2 KL散度的性质

关系图谱

目录

反向链接