信息论深度指南

文档概述

信息论由香农于1948年创立，为量化信息、度量不确定性提供了严格的数学框架。本指南系统介绍熵、交叉熵、KL散度、互信息等核心概念，以及信道容量、信息瓶颈理论和最大熵原理等高级主题。

关键词

序号	关键词	英文	核心公式
1	信息熵	Shannon Entropy	$H (X) = - \sum_{x} p (x) lo g p (x)$
2	交叉熵	Cross-Entropy	$H (P, Q) = - \sum_{x} p (x) lo g q (x)$
3	KL散度	KL Divergence	$D_{K L} (P ∥ Q) = \sum_{x} p (x) lo g \frac{p ( x )}{q ( x )}$
4	互信息	Mutual Information	$I (X; Y) = H (X) - H (X ∥ Y)$
5	信道容量	Channel Capacity	$C = max_{p (x)} I (X; Y)$
6	信息瓶颈	Information Bottleneck	$min_{p (t ∥ x)} I (X; T) - β I (T; Y)$
7	最大熵	Maximum Entropy	$max H (p) s.t. E [f_{i} (X)] = α_{i}$
8	联合熵	Joint Entropy	$H (X, Y) = - \sum_{x, y} p (x, y) lo g p (x, y)$
9	条件熵	Conditional Entropy	$H (X ∥ Y) = \sum_{y} p (y) H (X ∥ Y = y)$
10	率失真理论	Rate-Distortion Theory	压缩与保真度的权衡
11	Fano不等式	Fano’s Inequality	$H(P_e) + P_e \log(
12	数据处理不等式	DPI	$I (X; Y) \geq I (X; f (Y))$

一、熵与交叉熵

1.1 香农熵的定义

信息熵（Shannon Entropy）是量化随机变量不确定性的基本量。设离散随机变量 $X$ 的概率分布为 $p (x)$ ，则熵定义为：

$H (X) = - \sum_{x \in X} p (x) lo g p (x) = E_{p} [- lo g p (X)]$

约定 $0 lo g 0 = 0$ 。

对数底数的选择决定熵的单位：

底数为 2：单位为 bits（比特）
底数为 $e$ ：单位为 nats（奈特）
两者关系： $1 nat = lo g_{2} e \approx 1.443 bits$

熵的直觉理解

熵度量了编码随机变量 $X$ 所需的平均比特数（最优编码）。若 $X$ 有 $n$ 种等可能取值，则 $H (X) = lo g_{2} n$ bits——恰好是识别每个取值需要的二进制位数。

二进制熵函数：伯努利分布 $X \sim Bernoulli (p)$ 的熵：

$H_{b} (p) = - p lo g_{2} p - (1 - p) lo g_{2} (1 - p)$

$H_{b} (p)$ 在 $p = 0.5$ 处达到最大值 1 bit，当 $p \to 0$ 或 $p \to 1$ 时趋近于 0。这反映了完全确定的事件不携带信息。

1.2 熵的基本性质

非负性： $H (X) \geq 0$ ，当且仅当 $X$ 是确定分布时取等号。

联合熵： $(X, Y) \sim p (x, y)$ 的联合分布熵：

$H (X, Y) = - \sum_{x, y} p (x, y) lo g p (x, y)$

条件熵：给定 $Y$ 后 $X$ 的剩余不确定性：

$H (X ∣ Y) = \sum_{y} p (y) H (X ∣ Y = y) = - \sum_{x, y} p (x, y) lo g p (x ∣ y)$

链式法则：

$H (X_{1}, X_{2}, \dots, X_{n}) = H (X_{1}) + H (X_{2} ∣ X_{1}) + \dots + H (X_{n} ∣ X_{1}, \dots, X_{n - 1})$

1.3 交叉熵

交叉熵（Cross-Entropy）衡量用分布 $q$ 编码来自分布 $p$ 的消息所需的平均比特数：

$H (P, Q) = - \sum_{x} p (x) lo g q (x) = E_{p} [- lo g q (X)]$

交叉熵与熵的关系：

$H (P, Q) = H (P) + D_{K L} (P ∥ Q)$

交叉熵损失

在机器学习中，交叉熵常作为分类问题的损失函数。优化交叉熵等价于最小化 $D_{K L} (P_{t r u e} ∥ P_{m o d e l})$ （忽略常数项 $H (P_{t r u e})$ ）。这意味着学习分布 $q$ 尽可能接近真实分布 $p$ 。

1.4 微分熵

对于连续随机变量 $X \sim f (x)$ ，微分熵定义为：

$h (X) = - \int_{- \infty}^{\infty} f (x) lo g f (x) d x$

注意：与离散熵不同，微分熵可以是负数！

正态分布的微分熵： $h (X) = \frac{1}{2} lo g (2 π e σ^{2}) bits$

在所有方差为 $σ^{2}$ 的连续分布中，正态分布具有最大微分熵。

二、KL散度（相对熵）

2.1 KL散度的定义

KL散度（Kullback-Leibler Divergence）衡量两个概率分布的”距离”：

$D_{K L} (P ∥ Q) = \sum_{x} p (x) lo g \frac{p ( x )}{q ( x )} = E_{p} [lo g \frac{p ( X )}{q ( X )}]$

定义要求：若 $p (x) > 0$ ，则 $q (x) > 0$ （ $P$ 支撑集是 $Q$ 支撑集的子集）。

KL散度不是距离

KL散度不对称： $D_{K L} (P ∥ Q) \neq = D_{K L} (Q ∥ P)$ 。因此严格来说不是距离度量（不满足三角不等式和对称性）。但它是非负的，当且仅当 $P = Q$ 时取零。

2.2 KL散度的性质

非负性（KL散度的核心不等式）：

$D_{K L} (P ∥ Q) \geq 0$

证明（离散情形）：由 $lo g t \leq t - 1$ （等号当 $t = 1$ 时成立）

$- D_{K L} (P ∥ Q) = \sum_{x} p (x) lo g \frac{q ( x )}{p ( x )} \leq \sum_{x} p (x) (\frac{q ( x )}{p ( x )} - 1) = 0$

链式法则：KL散度满足可加性

$D_{K L} (P (X, Y) ∥ Q (X, Y)) = D_{K L} (P (X) ∥ Q (X)) + D_{K L} (P (Y ∣ X) ∥ Q (Y ∣ X))$

2.3 KL散度在机器学习中的应用

变分推断（Variational Inference）：用简单的变分分布 $q (Z)$ 逼近后验分布 $p (Z ∣ X)$ ，最小化 $D_{K L} (q (Z) ∥ p (Z ∣ X))$ ：

$min_{q} D_{K L} (q (Z) ∥ p (Z ∣ X)) \Leftrightarrow max_{q} E_{q} [lo g p (X, Z)] - E_{q} [lo g q (Z)]$

这产生了变分下界（ELBO）：

$L (q) = E_{q} [lo g p (X, Z)] - E_{q} [lo g q (Z)]$

GAN的对抗损失： GAN的损失函数本质上是最小化生成分布与真实分布之间的JS散度（Jensen-Shannon Divergence）：

$D_{J S} (P ∥ Q) = \frac{1}{2} D_{K L} (P ∥ M) + \frac{1}{2} D_{K L} (Q ∥ M), M = \frac{P + Q}{2}$

三、互信息

3.1 互信息的定义

互信息（Mutual Information）衡量两个随机变量之间的信息共享程度：

$I (X; Y) = D_{K L} (P (X, Y) ∥ P (X) P (Y)) = \sum_{x, y} p (x, y) lo g \frac{p ( x , y )}{p ( x ) p ( y )}$

互信息可以用熵的术语表示：

$I (X; Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X) = H (X) + H (Y) - H (X, Y)$

互信息的直观理解

互信息 $I (X; Y)$ 是”知道 $Y$ 后， $X$ 的不确定性的减少量”。它也可以理解为”知道 $X$ 后， $Y$ 的不确定性的减少量”。对称性是显然的。

3.2 条件互信息

条件互信息：给定 $Z$ 后， $X$ 和 $Y$ 之间的互信息：

$I (X; Y ∣ Z) = H (X ∣ Z) - H (X ∣ Y, Z)$

链式法则：

$I (X_{1}, X_{2}, \dots, X_{n}; Y) = \sum_{i = 1}^{n} I (X_{i}; Y ∣ X_{1}, \dots, X_{i - 1})$

3.3 数据处理不等式（DPI）

数据处理不等式：若 $X \to Y \to Z$ 形成马尔可夫链（即 $X ⊥ Z ∣ Y$ ），则：

$I (X; Y) \geq I (X; Z)$

证明思路：由于 $Z$ 仅通过 $Y$ 依赖于 $X$ ，知道 $Z$ 不比直接知道 $Y$ 提供更多信息。

DPI的应用

在机器学习中，数据经过层层变换 $X \to f_{1} (X) \to f_{2} (f_{1} (X)) \to \dots$ ：

每一步处理都不能增加与原始输入的互信息

网络的信息瓶颈使得 $I (X; Y)$ 成为容量上界

这为深度网络的信息压缩提供了理论解释

四、信道容量

4.1 信道模型的定义

离散无记忆信道（DMC）由输入字母表 $X$ 、输出字母表 $Y$ 和转移概率 $p (y ∣ x)$ 定义。

信道容量定义：

$C = max_{p (x)} I (X; Y)$

其中最大化在所有可能的输入分布 $p (x)$ 上进行。

信道容量的意义

信道容量 $C$ 是信道能够可靠传输信息的最大速率（bits/channel use）。当传输速率 $R < C$ 时，理论上可以无误差传输；当 $R > C$ 时，误差不可避免（信道编码定理）。

4.2 典型信道的容量

二进制对称信道（BSC）：

输入 $X \in {0, 1}$ ，输出 $Y \in {0, 1}$
交叉概率 $ϵ$ （输入0输出1或输入1输出0的概率）

$C_{BSC} = 1 - H_{b} (ϵ) bits$

其中 $H_{b} (ϵ)$ 是二进制熵函数。

高斯信道（连续输入）：

$C = W lo g_{2} (1 + \frac{P}{N}) bits/s$

其中 $W$ 是带宽， $P$ 是信号功率， $N$ 是噪声功率。 $P / N$ 是信噪比（SNR）。

4.3 信道编码定理

香农第二定理（信道编码定理）：

对于任意 $ϵ > 0$ 和速率 $R < C$ ，存在编码方案使得误码率小于 $ϵ$ ，且码率任意接近 $C$ 。

这是信息论最深刻的结果之一——它证明了通过噪声信道可靠通信的可能性，并给出了可达的极限速率。

五、信息瓶颈理论（IB）

5.1 IB框架的提出

信息瓶颈（Information Bottleneck, IB）理论由 Tishby、Pereira 和 Bialek 于1999年提出，用于分析深度学习中的表示学习。

IB优化问题：

$min_{p (t ∣ x)} I (X; T) - β I (T; Y)$

约束： $p (t ∣ x) = \sum_{z} p (t ∣ z) p (z ∣ x)$ ，边缘分布 $p (t) = \sum_{x} p (t ∣ x) p (x)$ 。

直观理解：

$I (X; T)$ ：压缩表示 $T$ 保留了多少关于输入 $X$ 的信息
$I (T; Y)$ ：表示 $T$ 对于预测目标 $Y$ 的有用程度
$β$ ：权衡参数， $β \to \infty$ 强调预测性， $β \to 0$ 强调压缩性

5.2 IB的理论性质

Pareto最优：IB曲线（ $I (T; Y)$ vs $I (X; T)$ ）是Pareto前沿，表示压缩与预测之间的最优权衡。

不变性：对于任意单调变换 $g (\cdot)$ ， $I (g (X); Y) = I (X; Y)$ ，但 $I (X; g (X))$ 可能变化。IB表示应对此变换具有鲁棒性。

IB与深度学习的联系

Tishby等人提出：深度神经网络训练过程中经历两个阶段：

拟合阶段： $I (X; T)$ 增加， $I (T; Y)$ 增加

压缩阶段： $I (X; T)$ 减小， $I (T; Y)$ 继续增加（泛化能力增强）

这一假说仍有争议，但IB框架为理解深度学习提供了独特视角。

5.3 IB的求解方法

变分信息瓶颈（VIB）：用参数化的变分分布近似 intractable 的分布：

$L = E_{p (x, y)} [E_{q (t ∣ x)} [- lo g p (y ∣ t)]] - β \cdot D_{K L} (q (t ∣ x) ∥ r (t))$

其中 $r (t)$ 是先验分布（通常取标准高斯）， $q (t ∣ x)$ 是编码器（高斯分布）， $p (y ∣ t)$ 是解码器。

六、最大熵原理

6.1 最大熵原理的哲学

最大熵原理（Principle of Maximum Entropy）：在所有满足已知约束的分布中，应选择熵最大的分布。

这一原理体现了奥卡姆剃刀的思想：在没有额外信息时，不做任何不必要的假设。

6.2 最大熵分布

约束：给定矩约束 $E [f_{i} (X)] = α_{i}$ （如均值、方差）。

最大熵解：具有形式

$p (x) = \frac{1}{Z ( λ )} exp (\sum_{i} λ_{i} f_{i} (x))$

其中 $Z (λ) = \sum_{x} exp (\sum_{i} λ_{i} f_{i} (x))$ 是配分函数。

常见情况：

约束	最大熵分布
固定均值	指数分布
固定均值和方差	正态分布
固定均值和方差（离散）	二项分布
固定均值（离散，非负）	泊松分布
固定和为1（分类变量）	均匀分布
固定支撑集，无其他约束	均匀分布

最大熵与统计物理

最大熵分布与统计物理中的玻尔兹曼分布完全一致。这不是巧合——熵最大化是统计物理微观状态数最大化的信息论表述。

6.3 最大熵与机器学习

条件随机场（CRF）：用最大熵原则推导特征函数的权重学习。

最大熵马尔可夫模型（MEMM）：结合最大熵分类与序列标注。

指数族分布：最大熵原理等价于选择指数族分布，这解释了为什么指数族在概率建模中如此普遍。

参考文献

Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Tishby, N., Pereira, F. C., & Bialek, W. (1999). The Information Bottleneck Method. Proceedings of the 37th Annual Allerton Conference, 368-377.
Alemdar, H., Leroy, V., Prost-Boucle, A., & Pétrot, F. (2019). Ternary Neural Networks for Resource-Efficient AI Applications. IJCNN, 1-8.
MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.

人工智能知识库

探索

信息论深度指南

信息论深度指南

关键词

一、熵与交叉熵

1.1 香农熵的定义

1.2 熵的基本性质

1.3 交叉熵

1.4 微分熵

二、KL散度（相对熵）

2.1 KL散度的定义

2.2 KL散度的性质

2.3 KL散度在机器学习中的应用

三、互信息

3.1 互信息的定义

3.2 条件互信息

3.3 数据处理不等式（DPI）

四、信道容量

4.1 信道模型的定义

4.2 典型信道的容量

4.3 信道编码定理

五、信息瓶颈理论（IB）

5.1 IB框架的提出

5.2 IB的理论性质

5.3 IB的求解方法

六、最大熵原理

6.1 最大熵原理的哲学

6.2 最大熵分布

6.3 最大熵与机器学习

参考文献

相关文档

关系图谱

目录