信息论

信息熵

为什么结果越平均、越难预测,信息熵反而越大?

信息熵并不是“混乱值”这么简单。它描述的是一个系统在结果揭晓前,平均有多难被预测。

先动手

先试一次,再理解原理

先拖动各个结果的概率,再看熵值和“平均需要多少次提问”怎样变化。

互动实验

信息熵实验台

把一个抽奖箱的结果分布调得更偏或更平均,看看熵值为什么会跟着变化。你会发现“越难猜”并不神秘,它就是结果越平均。

信息熵1.58 bits
不确定性很高,几乎最难预测
直觉理解平均约需 1.6 次二选一提问
参数调节红 34% · 蓝 33% · 金 33%收起

当某个结果几乎必然发生时,揭晓前几乎没有悬念,所以熵很低;当多个结果概率接近时,任何猜测都没有明显优势,熵就会变高。

整体分布1.58 / 1.58 bits
34%
33%
33%

越接近均匀分布,整条分布带越平分,不确定性也越接近三种结果下的理论最大值。

三角熵热图中心最高熵,边角最低熵
红球高蓝球高金球高
红球34%

这次发生时的信息量:1.56 bits

对总熵贡献:0.53

蓝球33%

这次发生时的信息量:1.60 bits

对总熵贡献:0.53

金球33%

这次发生时的信息量:1.60 bits

对总熵贡献:0.53

最新揭晓还没有抽样

点击“抽 1 次”或“抽 10 次”,看看揭晓一个结果时会带来多少新信息。

样本回放

还没有抽样结果。分布越均匀,事前越难猜中下一颗球。

编码长度对照平均编码长度约 2.00 bits

概率越高的结果,通常越适合分配更短编码;平均编码长度会尽量逼近熵值,但不会低于它。

红球0

34% 的结果适合更短或更长的编码,来减少平均传输长度。

蓝球10

33% 的结果适合更短或更长的编码,来减少平均传输长度。

金球11

33% 的结果适合更短或更长的编码,来减少平均传输长度。

霍夫曼编码树低概率先合并,高概率保留更短路径
01蓝球+金球100%

霍夫曼树会先合并最不常见的结果,因此高概率结果通常离根更近,拥有更短的编码。

快速认识

先用一句话知道它是什么

信息熵衡量的是结果揭晓前平均有多难猜,而不是系统看起来有多乱。

理解主线

再把关键变化顺下来

如果一个结果几乎必然发生,你几乎不用获得新信息,熵就很低。

如果多个结果概率接近,预测难度更高,熵会增大。

熵高不等于“坏”,它只是表示揭晓前的不确定性更大。

核心公式

用模型把关系写清楚

香农熵

H(X) = -Σ p(x) log2 p(x)

概率越平均,每次揭晓带来的平均信息量越高,所以熵会更大。

符号含义

  • H(X) 随机变量 X 的信息熵
  • p(x) 结果 x 出现的概率
  • log2 以 2 为底的对数,对应 bits 单位

适用说明

  • 只看结果个数不够,概率分布是否均匀同样关键。
  • 实验里拖动概率滑块,本质上是在直接改变 p(x)。

核心概念

把最重要的三个点讲清楚

均匀分布最难猜

当每种结果都差不多可能发生时,任何猜测都没有明显优势。

熵是平均信息量

它可以理解为:平均要花多少“二选一问题”才能把结果问清楚。

熵关注的是揭晓前,而不是揭晓后

结果一旦发生就不再不确定,熵讨论的是发生之前的可预测程度。

现实应用

这些场景真的会用到它

数据压缩

霍夫曼编码和很多压缩算法都会根据概率分布安排更短或更长的编码长度。

通信效率分析

在通信系统里,熵帮助我们估计一条消息平均至少需要多少比特来表达。

机器学习不确定性估计

分类模型输出的熵常被用来衡量模型到底是“很确定”还是“拿不准”。