信息论深度指南
文档概述
信息论由香农于1948年创立,为量化信息、度量不确定性提供了严格的数学框架。本指南系统介绍熵、交叉熵、KL散度、互信息等核心概念,以及信道容量、信息瓶颈理论和最大熵原理等高级主题。
关键词
| 序号 | 关键词 | 英文 | 核心公式 |
|---|---|---|---|
| 1 | 信息熵 | Shannon Entropy | |
| 2 | 交叉熵 | Cross-Entropy | |
| 3 | KL散度 | KL Divergence | |
| 4 | 互信息 | Mutual Information | |
| 5 | 信道容量 | Channel Capacity | |
| 6 | 信息瓶颈 | Information Bottleneck | |
| 7 | 最大熵 | Maximum Entropy | |
| 8 | 联合熵 | Joint Entropy | |
| 9 | 条件熵 | Conditional Entropy | |
| 10 | 率失真理论 | Rate-Distortion Theory | 压缩与保真度的权衡 |
| 11 | Fano不等式 | Fano’s Inequality | $H(P_e) + P_e \log( |
| 12 | 数据处理不等式 | DPI |
一、熵与交叉熵
1.1 香农熵的定义
信息熵(Shannon Entropy)是量化随机变量不确定性的基本量。设离散随机变量 的概率分布为 ,则熵定义为:
约定 。
对数底数的选择决定熵的单位:
- 底数为 2:单位为 bits(比特)
- 底数为 :单位为 nats(奈特)
- 两者关系:
熵的直觉理解
熵度量了编码随机变量 所需的平均比特数(最优编码)。若 有 种等可能取值,则 bits——恰好是识别每个取值需要的二进制位数。
二进制熵函数:伯努利分布 的熵:
在 处达到最大值 1 bit,当 或 时趋近于 0。这反映了完全确定的事件不携带信息。
1.2 熵的基本性质
非负性:,当且仅当 是确定分布时取等号。
联合熵: 的联合分布熵:
条件熵:给定 后 的剩余不确定性:
链式法则:
1.3 交叉熵
交叉熵(Cross-Entropy)衡量用分布 编码来自分布 的消息所需的平均比特数:
交叉熵与熵的关系:
交叉熵损失
在机器学习中,交叉熵常作为分类问题的损失函数。优化交叉熵等价于最小化 (忽略常数项 )。这意味着学习分布 尽可能接近真实分布 。
1.4 微分熵
对于连续随机变量 ,微分熵定义为:
注意:与离散熵不同,微分熵可以是负数!
正态分布的微分熵:
在所有方差为 的连续分布中,正态分布具有最大微分熵。
二、KL散度(相对熵)
2.1 KL散度的定义
KL散度(Kullback-Leibler Divergence)衡量两个概率分布的”距离”:
定义要求:若 ,则 ( 支撑集是 支撑集的子集)。
KL散度不是距离
KL散度不对称:。因此严格来说不是距离度量(不满足三角不等式和对称性)。但它是非负的,当且仅当 时取零。
2.2 KL散度的性质
非负性(KL散度的核心不等式):
证明(离散情形):由 (等号当 时成立)
链式法则:KL散度满足可加性
2.3 KL散度在机器学习中的应用
变分推断(Variational Inference): 用简单的变分分布 逼近后验分布 ,最小化 :
这产生了变分下界(ELBO):
GAN的对抗损失: GAN的损失函数本质上是最小化生成分布与真实分布之间的JS散度(Jensen-Shannon Divergence):
三、互信息
3.1 互信息的定义
互信息(Mutual Information)衡量两个随机变量之间的信息共享程度:
互信息可以用熵的术语表示:
互信息的直观理解
互信息 是”知道 后, 的不确定性的减少量”。它也可以理解为”知道 后, 的不确定性的减少量”。对称性是显然的。
3.2 条件互信息
条件互信息:给定 后, 和 之间的互信息:
链式法则:
3.3 数据处理不等式(DPI)
数据处理不等式:若 形成马尔可夫链(即 ),则:
证明思路:由于 仅通过 依赖于 ,知道 不比直接知道 提供更多信息。
DPI的应用
在机器学习中,数据经过层层变换 :
- 每一步处理都不能增加与原始输入的互信息
- 网络的信息瓶颈使得 成为容量上界
- 这为深度网络的信息压缩提供了理论解释
四、信道容量
4.1 信道模型的定义
离散无记忆信道(DMC)由输入字母表 、输出字母表 和转移概率 定义。
信道容量定义:
其中最大化在所有可能的输入分布 上进行。
信道容量的意义
信道容量 是信道能够可靠传输信息的最大速率(bits/channel use)。当传输速率 时,理论上可以无误差传输;当 时,误差不可避免(信道编码定理)。
4.2 典型信道的容量
二进制对称信道(BSC):
- 输入 ,输出
- 交叉概率 (输入0输出1或输入1输出0的概率)
其中 是二进制熵函数。
高斯信道(连续输入):
其中 是带宽, 是信号功率, 是噪声功率。 是信噪比(SNR)。
4.3 信道编码定理
香农第二定理(信道编码定理):
对于任意 和速率 ,存在编码方案使得误码率小于 ,且码率任意接近 。
这是信息论最深刻的结果之一——它证明了通过噪声信道可靠通信的可能性,并给出了可达的极限速率。
五、信息瓶颈理论(IB)
5.1 IB框架的提出
信息瓶颈(Information Bottleneck, IB)理论由 Tishby、Pereira 和 Bialek 于1999年提出,用于分析深度学习中的表示学习。
IB优化问题:
约束:,边缘分布 。
直观理解:
- :压缩表示 保留了多少关于输入 的信息
- :表示 对于预测目标 的有用程度
- :权衡参数, 强调预测性, 强调压缩性
5.2 IB的理论性质
Pareto最优:IB曲线( vs )是Pareto前沿,表示压缩与预测之间的最优权衡。
不变性:对于任意单调变换 ,,但 可能变化。IB表示应对此变换具有鲁棒性。
IB与深度学习的联系
Tishby等人提出:深度神经网络训练过程中经历两个阶段:
- 拟合阶段: 增加, 增加
- 压缩阶段: 减小, 继续增加(泛化能力增强)
这一假说仍有争议,但IB框架为理解深度学习提供了独特视角。
5.3 IB的求解方法
变分信息瓶颈(VIB):用参数化的变分分布近似 intractable 的分布:
其中 是先验分布(通常取标准高斯), 是编码器(高斯分布), 是解码器。
六、最大熵原理
6.1 最大熵原理的哲学
最大熵原理(Principle of Maximum Entropy):在所有满足已知约束的分布中,应选择熵最大的分布。
这一原理体现了奥卡姆剃刀的思想:在没有额外信息时,不做任何不必要的假设。
6.2 最大熵分布
约束:给定矩约束 (如均值、方差)。
最大熵解:具有形式
其中 是配分函数。
常见情况:
| 约束 | 最大熵分布 |
|---|---|
| 固定均值 | 指数分布 |
| 固定均值和方差 | 正态分布 |
| 固定均值和方差(离散) | 二项分布 |
| 固定均值(离散,非负) | 泊松分布 |
| 固定和为1(分类变量) | 均匀分布 |
| 固定支撑集,无其他约束 | 均匀分布 |
最大熵与统计物理
最大熵分布与统计物理中的玻尔兹曼分布完全一致。这不是巧合——熵最大化是统计物理微观状态数最大化的信息论表述。
6.3 最大熵与机器学习
条件随机场(CRF):用最大熵原则推导特征函数的权重学习。
最大熵马尔可夫模型(MEMM):结合最大熵分类与序列标注。
指数族分布:最大熵原理等价于选择指数族分布,这解释了为什么指数族在概率建模中如此普遍。
参考文献
- Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
- Tishby, N., Pereira, F. C., & Bialek, W. (1999). The Information Bottleneck Method. Proceedings of the 37th Annual Allerton Conference, 368-377.
- Alemdar, H., Leroy, V., Prost-Boucle, A., & Pétrot, F. (2019). Ternary Neural Networks for Resource-Efficient AI Applications. IJCNN, 1-8.
- MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.