香农熵：大自然中信息交流法则的基本约束

香农熵（Shannonentropy），又称为信息熵，由克劳德-香农提出。信息到底是什么？克劳德-香农首次提出，其基本要素是惊喜。

如果有人告诉你一个你已经知道的事实，结果是：实际上他们基本上什么也没告诉你，你没有惊喜。而如果有人向你透露了一个隐秘的东西，那么可以说：确实是向你传达交流了一些值得你惊喜的信息。

有人也许会问：这样的差别在哪里？这种差别是在于克劳德-香农所提出的信息理论的核心。他在1948年的一篇划时代的论文《通讯的数学原理》中，提供了一个严格的数学框架，用于量化准确发送和接收信息所需的信息量，这是由预期信息可能表达的不确定性程度所决定的。

为了传达交流一系列的随机事件，譬如抛一枚硬币，你需要使用大量的信息，因为这些信息没有结构。香农熵衡量了这一基本的约束。

以投掷一枚硬币的两种不同的简单情况来举例说明。在第一种情况下，有一枚特别的硬币，或者说骗人的硬币，两面都是一样的，或两面都是正面、或两面都是反面。如果把它投掷两次。需要多少信息来传达这个结果呢？实际是：完全不需要，因为在得到这种信息结果之前，你已经完全可以确定这两次投掷的结果，无论怎么投掷翻转，结果或都是正面、或都是反面。

在第二种情况下，是一枚普通的硬币，通常的硬币都是一面是正面，另一面是反面，正面与反面是不一样的。现在将它投掷两次。那么可能存在有四种结果：正正、反反、正反、反正。如果我们用二进制代码来表示结果：用0代表正面，用1代表反面，则有：00、11、01、10。每种信息需要两个二进制代码的比特来表示。

有人可能会问，这体现有什么意义呢？在第一种情况下，你对信息的内容有完全的确定性，你不需要任何比特来传输这个信息，也就是说，需要的是零个比特来传输它。在第二种情况下，你有1/4的机会猜到正确的答案，即25%的确定性，而信息需要两个比特的信息来解决这个模糊性、不确定性。更为普遍来讲，你对信息源所要表达的内容了解得越少，它所传递的信息就越多。

香农是第一个在数学上精确地说明这种关系的人。他在一个公式中捕捉到了这一点，这个公式计算了传递信息所需的最小比特数，一个后来被称为香农熵的阈值。他还表明，如果发送者使用的比特位数小于一个最小值，那么这个信息将不可避免地被扭曲或失真。

加州大学圣地亚哥分校的信息理论家塔拉-贾维迪（TaraJavidi）评价香农说："他有这种伟大的直觉，即当你对认知某件事情感到最惊讶的时候，也就是信息量最大的时候。"

香农熵中的术语"熵"是从物理学中借用来的，在物理学中，熵是对无序的一种衡量。譬如一片云比一片冰的熵更高，因为云比冰的立方体晶体结构允许有更多的方式来排列水分子，云比冰更为无序。同样的，一个随机信息具有较高的香农熵，它的信息可以有较多的排列方式，而遵守一定模式的信息有较少的排列方式，具有较低的熵。在物理学和信息论中，熵的计算方式也有形式上的雷同之处。在物理学中，熵的计算公式包括对可能的物理状态进行对数计算；在信息论中，熵是可能事件结果的对数。

香农熵的对数公式掩盖了它的简单性，因为另一种思考香农熵的方式是平均需要多少个"是"或"否"的问题的数量来确定一条信息的内容。

比方说，设想两个气象站，一个在广州，另一个在上海。每个气象站都想把自己城市的七天预报发给对方。广州几乎总是阳光明媚，这意味着广州气象站对预报的内容有较大的信心。上海的天气较不确定，出现晴天的机会可能是接近一半对一半的几率。

传递每七天的预报需要多少个是或否的问题？预报中的七天都是晴天吗？对于广州的气象站来说，比较容易回答这个问题的可能的答案。如果答案是肯定的（而且很有可能是肯定的），广州气象站就可以只通过一个问题来确定这个预报。但是对于上海气象站来说，几乎需要一天一天地预报。第一天是晴天吗？第二天又怎么样？……

信息内容的确定性越高，平均来说，你需要确定的"是"或"否"的问题就越少。

再举个例子，考虑两个版本的字母游戏。在第一个版本中，从英文字母中随机选择了一个字母，让你能猜一下。如果你使用最好的猜测策略，你平均要花4.7个问题才能得到它。(一个有用的第一个问题是："这个字母是在字母表的前半部分吗？")

在游戏的第二个版本中，你不是猜随机字母的值，而是要猜实际英语单词中的字母。现在你可以调整你的猜测，利用一些字母比其他字母出现得更频繁的事实（"这是元音吗？"），以及知道一个字母的价值有助于你猜测下一个字母的价值（q几乎总是跟着u）。香农计算出英语语言的熵是每个字母2.62位，即2.62个是或不是的问题，远远低于每个字母随机出现时所需的4.7位。换句话说，模式减少了不确定性，这使得用相对较少的信息进行大量的交流成为可能。

这正如，用不同的文字写的同一篇文章，一个版本是用中文写的，一个版本是用英文写的。由于汉字的信息量较大，中文文章所用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比英文字母印刷的文章要短。即使一个汉字占用两个字母的空间，汉字印刷的文章也要比英文字母印刷的用纸空间要少。

值得注意的是，在诸如此类的例子中，你可以提出更好或者更坏的问题。香农熵设定了一个不可侵犯的底线：这就是传达一个信息所需的绝对最小比特数，或者说是或不是问题的最少数量。

贾维迪评价说："香农指出，存在着像光速一样的一个基本约束的东西。""他表明，香农熵是一种基本的限制，即我们可以在多大程度上压缩一个信息来源，而不会使其有失真或丢失的风险。"

香农熵在今天的许多应用场合作为了一种标准，包括在信息压缩技术领域中。例如，你可以压缩一个大型电影文件以便于上传或下载，这要归功于这样一个事实，这是因为像素颜色具有一个统计模式，就像英语或中文语言的单词那样。科技人员可以为每一帧的像素颜色模式建立概率模型。这些模型可以计算出香农熵，方法是为这些模式分配权重，然后对所有可能出现的像素的权重取对数。这个值告诉你"无损"压缩的极限，在保证你“不失去”有关其内容信息的前提下，这个电影文件可以被“不失真压缩”的极限值。

任何压缩算法的性能都可以与这个极限约束进行比较。如果你离它还很远，那么你就还有空间去努力寻求更好的算法。如果你已接近于这个极限约束，你就知道这个反映大自然的信息法则使你难于再做得更好。

存满娱乐网

香农熵：大自然中信息交流法则的基本约束

量子认知