信息论深度指南

文档概述

信息论由香农于1948年创立,为量化信息、度量不确定性提供了严格的数学框架。本指南系统介绍熵、交叉熵、KL散度、互信息等核心概念,以及信道容量、信息瓶颈理论和最大熵原理等高级主题。

关键词

序号关键词英文核心公式
1信息熵Shannon Entropy
2交叉熵Cross-Entropy
3KL散度KL Divergence
4互信息Mutual Information
5信道容量Channel Capacity
6信息瓶颈Information Bottleneck
7最大熵Maximum Entropy
8联合熵Joint Entropy
9条件熵Conditional Entropy
10率失真理论Rate-Distortion Theory压缩与保真度的权衡
11Fano不等式Fano’s Inequality$H(P_e) + P_e \log(
12数据处理不等式DPI

一、熵与交叉熵

1.1 香农熵的定义

信息熵(Shannon Entropy)是量化随机变量不确定性的基本量。设离散随机变量 的概率分布为 ,则熵定义为:

约定

对数底数的选择决定熵的单位:

  • 底数为 2:单位为 bits(比特)
  • 底数为 :单位为 nats(奈特)
  • 两者关系:

熵的直觉理解

熵度量了编码随机变量 所需的平均比特数(最优编码)。若 种等可能取值,则 bits——恰好是识别每个取值需要的二进制位数。

二进制熵函数:伯努利分布 的熵:

处达到最大值 1 bit,当 时趋近于 0。这反映了完全确定的事件不携带信息。

1.2 熵的基本性质

非负性,当且仅当 是确定分布时取等号。

联合熵 的联合分布熵:

条件熵:给定 的剩余不确定性:

链式法则

1.3 交叉熵

交叉熵(Cross-Entropy)衡量用分布 编码来自分布 的消息所需的平均比特数:

交叉熵与熵的关系:

交叉熵损失

在机器学习中,交叉熵常作为分类问题的损失函数。优化交叉熵等价于最小化 (忽略常数项 )。这意味着学习分布 尽可能接近真实分布

1.4 微分熵

对于连续随机变量 微分熵定义为:

注意:与离散熵不同,微分熵可以是负数!

正态分布的微分熵:

在所有方差为 的连续分布中,正态分布具有最大微分熵。


二、KL散度(相对熵)

2.1 KL散度的定义

KL散度(Kullback-Leibler Divergence)衡量两个概率分布的”距离”:

定义要求:若 ,则 支撑集是 支撑集的子集)。

KL散度不是距离

KL散度不对称。因此严格来说不是距离度量(不满足三角不等式和对称性)。但它是非负的,当且仅当 时取零。

2.2 KL散度的性质

非负性(KL散度的核心不等式):

证明(离散情形):由 (等号当 时成立)

链式法则:KL散度满足可加性

2.3 KL散度在机器学习中的应用

变分推断(Variational Inference): 用简单的变分分布 逼近后验分布 ,最小化

这产生了变分下界(ELBO):

GAN的对抗损失: GAN的损失函数本质上是最小化生成分布与真实分布之间的JS散度(Jensen-Shannon Divergence):


三、互信息

3.1 互信息的定义

互信息(Mutual Information)衡量两个随机变量之间的信息共享程度:

互信息可以用熵的术语表示:

互信息的直观理解

互信息 是”知道 后, 的不确定性的减少量”。它也可以理解为”知道 后, 的不确定性的减少量”。对称性是显然的。

3.2 条件互信息

条件互信息:给定 后, 之间的互信息:

链式法则

3.3 数据处理不等式(DPI)

数据处理不等式:若 形成马尔可夫链(即 ),则:

证明思路:由于 仅通过 依赖于 ,知道 不比直接知道 提供更多信息。

DPI的应用

在机器学习中,数据经过层层变换

  • 每一步处理都不能增加与原始输入的互信息
  • 网络的信息瓶颈使得 成为容量上界
  • 这为深度网络的信息压缩提供了理论解释

四、信道容量

4.1 信道模型的定义

离散无记忆信道(DMC)由输入字母表 、输出字母表 和转移概率 定义。

信道容量定义:

其中最大化在所有可能的输入分布 上进行。

信道容量的意义

信道容量 是信道能够可靠传输信息的最大速率(bits/channel use)。当传输速率 时,理论上可以无误差传输;当 时,误差不可避免(信道编码定理)。

4.2 典型信道的容量

二进制对称信道(BSC)

  • 输入 ,输出
  • 交叉概率 (输入0输出1或输入1输出0的概率)

其中 是二进制熵函数。

高斯信道(连续输入):

其中 是带宽, 是信号功率, 是噪声功率。 是信噪比(SNR)。

4.3 信道编码定理

香农第二定理(信道编码定理):

对于任意 和速率 ,存在编码方案使得误码率小于 ,且码率任意接近

这是信息论最深刻的结果之一——它证明了通过噪声信道可靠通信的可能性,并给出了可达的极限速率。


五、信息瓶颈理论(IB)

5.1 IB框架的提出

信息瓶颈(Information Bottleneck, IB)理论由 Tishby、Pereira 和 Bialek 于1999年提出,用于分析深度学习中的表示学习。

IB优化问题

约束:,边缘分布

直观理解

  • :压缩表示 保留了多少关于输入 的信息
  • :表示 对于预测目标 的有用程度
  • :权衡参数, 强调预测性, 强调压缩性

5.2 IB的理论性质

Pareto最优:IB曲线( vs )是Pareto前沿,表示压缩与预测之间的最优权衡。

不变性:对于任意单调变换 ,但 可能变化。IB表示应对此变换具有鲁棒性。

IB与深度学习的联系

Tishby等人提出:深度神经网络训练过程中经历两个阶段:

  1. 拟合阶段 增加, 增加
  2. 压缩阶段 减小, 继续增加(泛化能力增强)

这一假说仍有争议,但IB框架为理解深度学习提供了独特视角。

5.3 IB的求解方法

变分信息瓶颈(VIB):用参数化的变分分布近似 intractable 的分布:

其中 是先验分布(通常取标准高斯), 是编码器(高斯分布), 是解码器。


六、最大熵原理

6.1 最大熵原理的哲学

最大熵原理(Principle of Maximum Entropy):在所有满足已知约束的分布中,应选择熵最大的分布。

这一原理体现了奥卡姆剃刀的思想:在没有额外信息时,不做任何不必要的假设。

6.2 最大熵分布

约束:给定矩约束 (如均值、方差)。

最大熵解:具有形式

其中 是配分函数。

常见情况

约束最大熵分布
固定均值指数分布
固定均值和方差正态分布
固定均值和方差(离散)二项分布
固定均值(离散,非负)泊松分布
固定和为1(分类变量)均匀分布
固定支撑集,无其他约束均匀分布

最大熵与统计物理

最大熵分布与统计物理中的玻尔兹曼分布完全一致。这不是巧合——熵最大化是统计物理微观状态数最大化的信息论表述。

6.3 最大熵与机器学习

条件随机场(CRF):用最大熵原则推导特征函数的权重学习。

最大熵马尔可夫模型(MEMM):结合最大熵分类与序列标注。

指数族分布:最大熵原理等价于选择指数族分布,这解释了为什么指数族在概率建模中如此普遍。


参考文献

  1. Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.
  2. Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
  3. Tishby, N., Pereira, F. C., & Bialek, W. (1999). The Information Bottleneck Method. Proceedings of the 37th Annual Allerton Conference, 368-377.
  4. Alemdar, H., Leroy, V., Prost-Boucle, A., & Pétrot, F. (2019). Ternary Neural Networks for Resource-Efficient AI Applications. IJCNN, 1-8.
  5. MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.

相关文档